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内 容 提 要 


本 书 是 一 本 C++ 代码 优化 指南 。 作 者 精 选 了 他 在 近 30 年 编程 生 ; 





寿 中 最 频繁 使 用 的 技术 和 





能 够 带 来 最 大 性 能 提升 效果 的 技术 ， 旨 在 让 读者 在 提升 C++ 程序 的 同时 ， 思 考 优化 软件 之 美 。 





书 中 主要 内 容 有 : 代码 优化 的 意义 和 总 原则 ， 与 优化 相关 的 计算 机 硬 


件 背 景 知识 ， 性 能 分 析 方 


法 及 工具 ， 优 化 字符 串 的 使 用 ， 算 法 、 动 态 分 配 内 存 、 热 点 语句 、 查 找 与 排序 等 等 的 优化 方法 。 

















本 书 适合 所 有 C++ 程序 员 ， 也 可 供 其 他 语言 的 程序 员 优化 代码 时 作为 参考 。 
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读者 朋友 ， 你 好 ! 我 的 名 字 叫 Kurt， 是 一 名 狂热 的 编程 爱好 者 。 


我 编写 软件 已 经 超过 35 年 了 。 我 从 未 就 职 于 微软 、 谷 歌 、Facebook、 苹 果 或 者 其 他 知名 
公司 。 但 是 在 这 些 年 里 ， 除 了 儿 个 短暂 的 假期 外 ， 我 每 天 都 在 写 代码 。 最 近 20 年 里 ， 我 
几乎 只 编写 C++ 程序 ， 并 与 其 他 睿智 的 开发 人 员 讨 论 Ct++。 所 以 我 有 资格 写 一 本 关于 优 
化 C++ 代码 的 书 。 我 还 发 表 过 许多 文章 ， 包 括 规范 、 评 论 、 手 册 、 学 习 笔 记 以 及 博客 文章 
(http://oldhandsblog.blogspot.com) 等 。 有 时令 我 吃惊 的 是 ， 我 共事 过 的 窒 智 能 干 的 程序 员 
中 ， 只 有 半数 能 将 两 个 符合 英文 语法 的 句子 合并 在 一 起 。 

我 最 喜欢 的 名 言 之 一 出 自 艾 萨 克 * 牛顿 骸 士 的 一 封 信 。 他 在 信 中 写 道 :“ 我 之 所 以 看 得 更 
远 ， 是 因为 我 站 在 巨人 的 肩 上 。” 现 在 ， 我 也 站 在 巨人 的 启 上 了 ， 特 别 是 阅读 过 他 们 的 得 
作 : 有 优雅 的 小 书 ， 如 Brian Kernighan 和 Dennis Ritchie 合 著 的 《C 程序 设计 语言 》， 有 
充满 智慧 且 走 在 技术 前 沿 的 书籍 ， 如 Scott Meyers 的 Bffective C++ 系列 ， 有 充满 挑战 又 能 
扩展 思维 的 书籍 ， 如 Andrei Alexandrescu 的 《C++ 设计 新 思维 》; 有 科学 严谨 且 讲 解 准 确 
的 书籍 ， 如 Bjarne Stroustrup 和 Margaret Ellis 合 著 的 The Annotated C++ Reference Manual。 
在 我 职业 生涯 的 大 部 分 时 间 ， 我 都 从 没 想 过 有 一 天 可 以 自己 写 一 本 书 。 但 是 突然 有 一 天 ， 
我 发 现 我 需要 写 这 本 书 。 

那么 为 什么 我 要 写 一 本 关于 C++ 性 能 优化 的 书 呢 ? 

在 21 世纪 初期 ，C++ 曾 一 度 受 到 诉 病 。C 语言 的 支持 者 指出 C++ 程序 的 性 能 不 如 以 C 语 
言 编写 的 相同 代码 。 拥 有 巨额 营销 预算 的 著名 企业 吹 咕 它们 自己 的 面向 对 象 语言 ， 宣 称 
C++ 语言 难以 使 用 ， 而 它们 的 工具 才 是 未 来 。 各 大 高 校 也 决定 教授 Java 语言 ， 因 为 它 有 一 
套 免费 的 工具 链 。 由 于 以 上 种 种 原因 ， 大 公司 投资 大 笔 金 钱 使 用 Java、C# 或 是 PHP 来 编 
写 网 站 和 操作 系统 。C++ 看 起 来 正在 逐渐 衰落 。 对 于 任何 相信 C++ 语言 是 强大 且 有 用 的 工 
有 具 的 人 而 言 ， 那 是 一 段 困难 的 时 期 。 


就 在 这 时 ， 一 件 有 趣 的 事情 发 生 了 。 处 理 器 核心 的 处 理 速度 停止 增长 ， 但 是 工作 负 衔 在 持 
续 加 大 。 于 是 ， 那 些 大 公司 又 开始 重新 雇用 C++ 程序 员 去 解决 它们 的 扩容 问题 。 用 C++ 
从 头 开 始 重新 编写 代码 的 成 本 变 得 比 在 数据 中 心 消耗 的 电费 要 便宜 。 突 然 之 间 ，C++ 再 度 
流行 起 来 了 。 
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C++ 与 2016 年 年 初 那些 高 市 场 份额 的 编程 语言 相 比 非常 突出 的 一 点 是 ， 它 为 开发 人 员 提 
供 了 一 连 串 的 可 选 实现 方式 ， 从 全 自动 、 自 动 支持 到 精准 手动 控制 。C++ 赋予 了 开发 人 员 
掌控 性 能 权衡 的 力量 ， 这 种 掌控 让 性 能 优化 成 为 可 能 。 

市 面 上 介绍 如 何 优化 C++ 代码 的 书 并 不 多 。 其 中 之 一 是 由 Dov Bulka 与 David Mayhew 精 
心 研究 所 著 ， 不 过 现在 看 来 有 些 过 时 的 《提高 C++ 性 能 的 编程 技术 》。 这 两 位 作者 似乎 与 
我 有 相似 的 职业 经 历 ， 也 发 现 了 很 多 相同 的 优化 原则 。 若 想 看 看 其 他 人 怎么 看 待 本 书 中 提 
出 的 问题 ， 推 荐 从 《提高 C++ 性 能 的 编程 技术 》 开 始 。 另 外 ，Scott Meyers 等 人 也 广泛 地 
讨论 过 如 何 避 免 使 用 复制 构造 函数 。 


需要 掌握 的 关于 代码 优化 的 知识 太 多 了 ， 足 够 写 出 10 本 书 。 在 本 书 中 ， 我 精 选 出 了 自己 
在 工作 中 频繁 使 用 的 技术 和 能 够 带 来 最 大 性 能 提升 效果 的 技术 进行 讲解 。 奋 战 在 性 能 优化 
前 线 的 读者 可 能 会 有 疑问 ， 为 什么 本 书 中 没有 介绍 任何 有 助 于 他 们 解决 问题 的 对 策 。 对 于 
这 些 疑 问 ， 我 只 能 说 :“ 对 不 起 ， 内 容 太 多 ， 篇 幅 有 限 。” 

欢迎 大 家 将 勘误 、 评 论 和 最 喜欢 的 优化 策略 发 送 至 antelope_book@guntheroth.com。 


我 热爱 软件 开发 。 我 享受 永 不 停 欣 地 练习 每 一 种 新 的 循环 方式 和 接口 。 编写 代码 是 一 门 科 
学 ， 也 是 一 门 写 诗 艺术 ， 它 是 一 项 冷 个 的 技术 ， 一 种 内 在 的 艺术 形式 ， 以 至 于 除了 少数 同 
行 外 几乎 没有 人 懂得 欣赏 它 。 优 雅 的 函数 中 皮 藏 着 美感 ， 被 广泛 使 用 的 强大 的 惯用 法 中 缠 
藏 着 智慧 。 但 令 人 遗憾 的 是 ， 每 一 部 史诗 般 的 软件 诗篇 (如 Stepanov 的 标准 模板 库 )， 都 
对 应 着 10 000 行 单调 、 庞 大 、 枯 燥 的 代码 。 


本 书 的 根本 目标 是 帮助 读者 思考 优化 软件 之 美 。 请 记 住 这 一 点 并 践 行 之 。 请 看 得 更 远 一 些 ! 


多 全 ] 

为 本 书 中 的 代码 致 舱 

虽然 我 已 经 编写 和 优化 C++ 代码 超过 20 年 了 ， 但 是 本 书 中 所 出 现 的 大 多 数 代码 都 是 特意 
为 本 书 编写 的 。 就 像 所 有 新 编写 的 代码 一 样 ， 这 些 代码 也 会 有 缺陷 。 为 此 ， 我 次 表 娄 意 。 
多 年 以 来 ， 我 一 直 为 Windows、Linux 和 各 种 上 蔡 入 式 系统 进行 开发 ， 而 本 书 中 展示 的 代 
码 则 是 我 在 Windows 上 编写 的 。 因 此 ， 毫 无 疑问 ， 本 书 中 的 代码 和 内 容 都 更 加 偏向 于 
Windows。 那 些 使 用 Windows 操作 系统 中 的 Visual Studio 讲解 的 优化 C++ 代码 的 技术 ， 
同样 也 适用 于 Linux、Mac OS X 或 者 其 他 C++ 环境 。 不 过 ， 不 同 优化 方式 的 正确 使 用 时 
机 则 取决 于 编译 器 和 标准 库 的 实现 以 及 代码 是 在 哪 种 处 理 器 上 测试 的 。 优 化 是 一 门 实验 科 
学 。 盲 目地 信任 优化 建议 往往 会 失望 。 
我 知道 在 不 同 的 编译 器 之 间 、Unix 系统 和 峰 入 式 系统 之 间 存 在 的 兼容 性 是 非常 难以 应 对 
的 。 如 果 书 中 的 代码 无 法 在 你 最 喜爱 的 系统 上 编译 通过 ， 我 感到 非常 抱歉 。 本 书 并 不 会 讲 
解 跨 系 统 的 兼容 性 ， 我 个 人 倾向 于 展示 简单 的 代码 。 

我 并 不 喜欢 下 面 这 种 大 括号 缩 进 风格 : 


if (bool_condition) { 
controlled_statement(); 











































































































} 





注 1: 可 以 从 http://www.tiobe.com/tiobe-index/ 查询 各 编程 语言 的 市 场 份 额 。 一 一 译 者 注 








不 过 ， 这 种 风格 的 优点 是 可 以 在 一 页 中 放 入 更 多 的 代码 行 ， 因 此 ， 我 选择 在 本 书 中 使 用 这 





种 风格 。 


示例 代码 的 使 用 


可 从 以 下 地 址 下 载 本 书 示例 代码 、 解 决 方案 示例 等 附带 资料 : guntheroth.com。 





本 书 是 要 帮 你 完成 工作 的 ， 所 以 书 中 的 示例 代码 通常 可 以 直接 拿 去 用 在 你 的 程序 或 文档 








中 。 除 非 你 使 用 了 很 大 一 部 分 代码 ， 否 则 无 需 联系 我 们 获得 许可 。 比 如 ， 用 本 书 的 几 个 
代码 片段 写 一 个 程序 就 无 需 获 得 许可 ， 销 售 或 分 发 O'Reilly 图 书 的 示例 光盘 则 需要 获得 许 











可 ; 引用 本 书 中 的 示例 代码 回答 问题 无 需 获 得 许可 ， 将 书 中 大 量 的 代码 放 到 你 的 产品 文档 


中 则 需要 获得 许可 。 





我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 说 明 。 引 用 说 明 一 般 包 括 书 名 、 
作者 、 出 版 社 和 ISBN， 比 如 “Optimized C++ by Kurt Guntheroth(O’Reilly). Copyright 2016 








Kurt Guntheroth, 978-1-491-92206-4”。 











如 果 你 觉得 自己 对 示例 代码 的 用 法 超出 了 上 述 许可 的 范围 ， 欢 迎 你 通过 permissions@ 








el 


oreilly.com 与 我 们 联系 。 


排版 约定 
本 书 使 用 了 下 列 排版 约定 。 
。 黑体 
表示 新 术语 。 
。 等 宽 字 体 (constant width) 
表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 函 数 名 、 环 境 变量 、 语 句 和 关键 字 等 。 




















第 1 章 


优化 概述 





这 是 一 个 充满 了 计算 的 世界 。 许 多 程序 都 需要 全 天 候 运 行 ， 无 论 这 些 代码 是 运行 于 手表 、 
手机 、 平 板 电 脑 、 工 作 站 、 超 级 计算 机 上 ， 抑 或 是 数据 中 心 覆 盖 全 球 的 网 络 中 。 所 以 ， 仅 
仅 是 准确 地 将 你 脑海 中 的 很 棒 的 想法 转换 为 代码 是 不 够 的 ， 甚 至 梳理 所 有 代码 以 找 出 缺 
陷 ， 直 到 程序 可 以 一 直 正 确 地 运行 也 是 不 够 的 。 你 的 应 用 程序 可 能 会 在 客户 所 能 提供 的 硬 
件 上 运行 得 非常 缓慢 ;你 的 硬件 团队 可 能 会 只 给 你 一 个 微 处 理 器 ， 却 要 求 你 满足 他 们 巨大 
的 性 能 开销 目标 ， 你 可 能 正在 与 竞争 对 手 就 吞吐 量 和 帧 数 战 斗 着 ;或 者 你 正在 将 一 个 项 目 
推广 至 全 球 用 户 ， 但 有 点 担心 可 能 会 把 事情 弄 砸 了 。 那 么 ， 请 进入 优化 的 世界 。 


这 是 一 本 关于 优化 的 书 ， 特 别 是 引用 了 一 些 C++ 代码 特有 的 行为 模式 对 C++ 程序 进行 优 
化 。 书 中 的 一 些 优 化 技术 也 适用 于 其 他 编程 语言 ， 但 是 我 并 不 会 以 一 种 通用 的 方式 讲解 这 
些 技术 。 有 些 对 C++ 代码 特别 有 效 的 优化 技术 ， 可 能 对 其 他 编程 语言 没有 效果 ， 其 至 根 
本 不 可 行 。 


本 书 关注 的 是 如 何 对 体现 C++ 设计 最 佳 实践 的 正确 代码 进行 优化 ， 使 之 不 仅 可 以 体现 出 优 
秀 的 C++ 设计 ， 而 且 还 可 以 在 绝 大 多 数 计算 机 上 更 快速 、 更 低 耗 地 运行 。 许 多 优化 机 会 的 
出 现 产 于 某 些 C++ 特性 被 误 用 而 导致 程序 运行 缓慢 、 消 耗 许 多 资源 。 这 些 代码 虽然 是 正确 
的 ， 却 不 完善 。 这 些 代码 往往 是 因为 开发 人 员 缺 乏 现代 微 处 理 器 设备 的 基本 常识 ， 或 是 没 
有 仔细 考虑 各 种 C++ 对 象 构建 方式 的 性 能 开销 而 编写 出 的 。 可 进行 优化 的 另外 一 个 原因 
是 ，C++ 提供 了 对 内 存 管理 和 复制 的 精准 控制 功能 。 

本 书 不 会 涉及 编写 汇编 语言 子 程序 、 计 算 时 钟 周 期 或 者 学 习 英 特 尔 最 新 的 芯片 可 以 同 
时 分 发 多 少 个 指令 。 确 实 有 一 些 开发 人 员 会 为 某 个 单一 平台 (例如 Xbox 就 是 一 个 很 好 的 
例子 ) 工作 数 年 ， 他 们 不 仅 有 充足 的 时 间 ， 而 且 也 需要 去 掌握 在 该 平台 中 进行 开发 的 秘 





























































































































注 1: Xbox 是 国 微软 公司 开发 的 家 用 电视 游戏 机 。 一 一 译 者 注 


























诀 。 但 是 ， 绝 大 多 数 开发 人 员 还 是 会 为 手机 、 平 板 电脑 或 PC 等 含有 各 种 不 同 微 处 理 器 已 
片 〈 甚 至 有 些 心 片 还 设 有 被 设计 出 来 ) 的 设备 开发 程序 。 那 些 伐 入 式 软件 的 开发 人 员 也 必 
须 面 对 拥有 不 同体 系 结构 的 各 种 处 理 器 。 完 全 掌握 这 些 处 理 喜 的 特性 只 会 让 开发 人 员 疯 狂 
和 狂放 不 决 。 我 不 建议 你 选择 这 条 路 。 对 于 大 多 数 应 用 程序 来 说 ， 对 每 种 处 理 器 都 进行 特 
定 的 优化 是 难以 取得 好 效果 的 ， 因 为 这 些 应 用 程序 必须 运行 于 各 种 处 理 器 之 上 。 


本 书 也 不 会 教授 如 何以 最 快 的 独立 于 操作 系统 的 方式 在 Windows、Linux、OS X 以 及 所 
有 的 租 入 式 操 作 系 统 上 进行 操作 。 本 书 会 告诉 你 能 用 C++ (包括 C++ 标准 库 ) 做 什么 。 
脱离 了 C++ 进行 优化 可 能 会 让 他 人 难以 评审 或 评价 优化 后 的 代码 。 我 们 不 应 当 轻 易 采 取 
这 种 方式 。 

本 书 将 讲解 如 何 进 行 优化 。 任 何不 更 新 的 技术 或 者 功能 都 注定 失败 ， 因 为 新 的 算法 被 不 断 
地 发 明 出 来 ， 新 的 编程 语言 特性 也 在 不 断 地 涌现 。 而 本 书 则 提供 了 一 些 可 以 运行 的 示例 来 
展示 如 何 逐 步 地 改善 代码 。 通 过 这 个 过 程 ， 你 可 以 熟悉 代码 的 优化 过 程 并 形成 一 种 可 以 提 
高 优化 效果 的 思维 模式 。 

本 书 也 会 讲解 如 何 优化 编码 过 程 。 注 重 程序 在 运行 时 的 性 能 开销 的 开发 人 员 ， 可 以 从 一 开 
台 就 编写 出 高 效 代码 。 通 过 不 断 地 练习 ， 编 写 高 效 代 码 通常 并 不 会 比 编写 低 效 代码 花费 更 
多 时 间 。 

最 后 ， 这 本 书 是 关于 创造 奇迹 的 ， 是 关于 在 检查 性 能 变化 时 听见 一 位 同事 惊叹 :“ 哇 ， 到 
底 发 生 了 什么 ? 才 启 动 就 处 理 完 毕 了 。 有 人 做 了 什么 修改 吗 ? ”优化 也 是 一 件 可 以 提升 开 
发 人 员 的 地 位 和 自豪 感 的 事情 。 


1.1 优化 是 软件 开发 的 一 部 分 


优化 是 一 项 编码 活动 。 在 传统 的 软件 开发 过 程 中 ， 直 到 编码 完成 ， 项 目 进入 了 集成 与 测试 
阶段 ， 能 够 观察 到 程序 整体 的 性 能 时 ， 才 会 进行 优化 。 而 在 敏捷 开发 方式 中 ， 当 一 个 带 有 
性 能 指标 的 特性 编码 完成 后 或 是 需要 实现 特定 的 性 能 目标 时 ， 就 会 分 配 一 个 或 多 个 冲刺 
(sprint) 进行 优化 。 

性 能 优化 的 目的 是 通过 改善 正确 程序 的 行为 使 其 满足 客户 对 处 理 速度 、 吞 吐 量 、 内 存 占用 
以 及 能 耗 等 各 种 指标 的 需求 。 因 此 ， 性 能 优化 与 编码 对 开发 过 程 而 言 有 着 同等 的 重要 性 。 
对 于 用 户 而 言 ， 性 能 糟糕 得 让 人 无 法 接受 ， 这 个 问题 的 严重 程度 不 亚 于 出 现 bug 和 未 实现 
的 特性 。 


bug 修复 与 性 能 优化 之 间 的 一 个 重要 区 别 是 ， 性 能 是 一 个 连续 变量 。 特 性 要 么 是 实现 了 ， 
要 么 是 没有 实现 ，bug 要 么 存在 ， 要 么 不 存在 。 但 是 性 能 可 以 是 非常 糟糕 或 者 非常 优秀 ， 
还 可 能 是 介 于 这 二 者 之 间 的 某 种 程度 。 优 化 还 是 一 个 迭代 的 过 程 。 每 当 程序 中 最 慢 的 部 分 
被 改善 后 ， 一 个 新 的 最 慢 的 部 分 就 会 出 现 。 

与 其 他 编码 任务 相 比 ， 优 化 更 像 是 一 门 实验 科学 ， 需 要 有 更 深入 的 科学 思维 方式 。 要 想 优 
化 成 功 ， 需 要 先 观察 程序 行为 ， 然 后 基于 这 些 程序 行为 作出 可 测试 的 推出 ， 再 进行 实验 得 
出 测试 结果 。 这 些 测试 结果 要 么 验证 推出 ， 要 么 推翻 推出 。 经 验 丰富 的 开发 人 员 常 常 相信 
他 们 对 于 最 优 代码 具有 足够 的 经 验 和 直觉 。 但 是 除非 他 们 频繁 地 测试 自己 的 直觉 否则 通 








































































































































































































2 | 第 1 章 


常 他 们 都 是 错误 的 。 在 我 个 人 为 本 书 编写 测试 代码 的 经 历 中 ， 就 多 次 出 现 测试 结果 与 我 的 
直觉 相悖 的 情况 。 实 验 ， 而 非 直觉 ， 才 是 贯穿 本 书 的 主题 。 


1.2 ”优化 是 高 效 的 


开发 人 员 很 难 理解 单个 编码 决策 对 大 型 程序 的 整体 性 能 的 影响 。 因 此 ， 实 际 上 所 有 完整 的 
程序 都 包含 大 量 的 优化 机 会 。 即 使 是 经 验 丰 富 的 团队 在 时 间 充 裕 的 情况 下 编写 出 的 代码 ， 
运行 速度 通常 也 可 以 提高 30% 至 100%。 我 见 过 对 在 时 间 很 紧张 的 情况 下 或 是 欠缺 经 验 的 
团队 编写 出 的 代码 进行 优化 后 ， 程 序 运行 速度 提高 了 3 至 10 倍 的 情况 。 不 过 ， 通 过 微调 
代码 让 程序 的 运行 速度 提升 10 多 倍 几 乎 是 不 可 能 的 。 但 是 选择 一 种 更 好 的 算法 或 是 数据 
结构 ， 则 可 以 将 程序 的 某 个 特性 的 性 能 从 慢 到 无 法 忍受 提升 至 可 发 布 的 状态 。 


2 是 、 几 一 旦 
1.3 优化 是 没有 问题 的 
许多 关于 性 能 优化 的 讨论 都 会 首先 严正 地 警告 大 家 :“ 不 要 ! 不 要 优化 ! 如 果 确 实 需要 ， 
那么 请 在 项 目 结束 时 再 优化 ， 而 且 不 要 做 任何 非 必需 的 优化 。 例如 ， 著 名 的 计算 机 科学 
家 高 德 纳 曾经 这 样 说 过 : 
我 们 应 当 忘 记 小 的 性 能 改善 ， 百 分 之 九 十 七 的 情况 下 ， 过 时 优化 都 是 万 恶 之 源 。 
一 一 高 德 纳 ”，Structured Programming with go to Statements,，ACM Computing 


Surveys’ 6(4), December 1974, p268. CiteSeerX’: 10.1.1.103.6084 
(http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.103.6084) 


威廉 . 沃 尔 夫 ” 曾 说 过 : 
以 (没有 必要 达成 的 ) 效率 之 名 犯 下 的 计算 之 罪 比 其 他 任何 一 个 原因 (包括 盲目 


思春 ) 部 多 。 
一 一 A Case Against the GOTO， 第 25 届 美 国 ACM 会 议论 文集 (1972) : 796 


“不 要 进行 优化 ”这 条 建议 已 经 成 为 了 一 项 编程 常识 ， 甚 至 许多 经 验 丰 富 的 程序 员 都 认为 
这 是 毋庸 置疑 的 。 他 们 对 性 能 调 优 避 而 不 谈 。 我 认为 过 度 推 党 这 条 建议 经 常 被 用 作 两 种 行 
为 的 借口 : 编程 恶习 ， 以 及 逃避 做 少量 分 析 以 让 代码 运行 得 更 快 。 同 时 我 还 认为 ， 宦 目地 
接受 这 条 建议 会 导致 浪费 大 量 CPU 周期 、 用 户 满意 度 下 降 ， 会 浪费 大 量 时 间 重 写 那 些 本 
应 从 一 开始 就 更 加 高 效 的 代码 。 



















































































注 2: 高 德 纳 教授 是 著名 的 计算 机 科学 家 ， 算 法 与 程序 设计 技术 的 先驱 者 、 斯 坦 福 大 学 计算 机 系 荣 休 教授 、 
计算 机 排版 系统 TEX 和 METAFONT 字体 系统 的 发 明 人 ， 因 诸多 成 就 以 及 大 量 富 于 创造 力 和 上 有 具有 深 
远 影 响 的 著作 而 誉 满 全 球 。 译 者 注 
注 3: 4CM Computing Surveys 是 美国 计算 机 协会 的 期 刊 。 一 一 译 者 注 
注 4: CiteSeerX 是 NEC 研究 院 在 自动 引文 索引 (Autonomous Citation Indexing，ACI) 机 制 的 基础 上 建设 的 
一 个 学 术 论 文 数字 图 书馆 。 一 一 译 者 注 
注 5: 威廉 ， 沃 尔 夫 是 著名 的 计算 机 科学 家 ， 因 在 编程 语言 以 及 编译 器 上 的 成 就 而 闻名 。 他 曾 是 弗吉尼亚 大 
学 的 教授 和 AT&T 的 教授 。 一 一 译 者 注 
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我 的 建议 是 不 要 过 于 教条 。 优 化 是 没有 问题 的 。 学 习 高 效 的 编程 惯用 法 并 在 程序 中 实践 之 
是 没有 问题 的 ， 即 使 你 不 知道 哪 部 分 代码 的 性 能 很 重要 。 这 些 惯用 法 对 C++ 程序 很 有 帮 
助 。 使 用 这 些 技巧 也 不 会 让 你 被 同事 鄙夷 。 如 果 有 人 问 你 为 什么 不 写 一些 “ 简 单 ” 和 低 效 
的 代码 ， 你 可 以 这 么 回答 他 :“ 编 写 高 效 代 码 与 编写 低 效 无 用 的 代码 所 需 的 时 间 是 一 样 的 ， 
为 什么 还 会 有 人 特意 去 编写 低 效 的 代码 呢 ?” 


但 是 ， 如 果 你 不 清楚 重要 性 ， 因 为 不 确定 哪个 算法 更 好 而 导致 许多 天 过 去 了 项 目 仍 毫 无 进 
展 ， 这 是 不 行 的 。 你 因为 猪 测 某 段 代码 有 严格 的 执行 时 间 的 要 求 ， 就 花费 数 周 时 间 去 编写 
汇编 代码 ， 然 后 将 代码 作为 函数 被 调用 (而 实际 上 C++ 编译 器 可 能 已 经 将 函数 内 联展 开 
了 )， 这 是 不 行 的 。 当 你 实际 上 并 不 知道 C 是 否 真 的 更 快 以 及 C++ 是 否 真 的 不 快 时 ， 仅 仅 
因为 “大 家 都 知道 C 更 快 "， 就 要 求 你 的 团队 在 C++ 程序 中 使 用 C 语言 编写 部 分 代码 ， 这 
是 不 行 的 。 换 言 之 ， 所 有 软件 开发 的 最 佳 实践 依然 都 是 适用 的 。 优 化 并 不 能 成 为 打破 这 些 
规则 的 理由 。 

不 知道 性 能 问题 出 在 哪里 就 花费 很 多 时 间 进 行 优化 ， 这 是 不 行 的 。 在 第 3 章 中 我 将 介绍 
“90/10 规则 ”。 这 条 规则 指出 程序 中 只 有 10% 的 代码 的 性 能 是 很 重要 的 。 因 此 ， 试 图 修改 
程序 中 的 每 条 语句 去 改善 程序 性 能 没有 必要 ， 也 不 会 有 人 作用。 既然 只 有 10% 的 代码 会 对 程 
序 的 性 能 产生 显著 的 影响 ， 那 么 试图 随机 找 出 一 个 性 能 改善 切入 点 的 概率 就 会 很 低 。 第 3 
章 会 讲解 如 何 使 用 一 些 工具 帮助 大 家 定位 代码 中 的 “热点 ”。 
当 我 还 在 读 大 学 时 ， 我 的 教授 曾经 警告 我 们 ， 最 优 算法 的 启动 性 能 开销 可 能 比 简 单 算法 更 
大 ， 因 此 ， 应 当 只 在 大 型 数据 集 上 使 用 它们 。 可 能 对 于 茶 些 冷 售 的 算法 来 说 确实 如 此 ， 但 
根据 我 的 经 验 ， 对 于 简单 的 查找 和 排序 任务 而 言 ， 最 优 算法 的 准备 时 间 很 少 ， 即 使 在 小 型 
数据 集 上 使 用 它们 也 能 改善 性 能 。 

我 也 曾经 被 建议 在 开发 程序 时 随便 使 用 一 种 最 容易 实现 的 算法 ， 之 后 在 发 现 程序 运行 得 太 
慢 时 ， 再 回 过 头 来 优化 它 。 不 可 否认 ， 这 对 于 推进 项 目 持续 进展 是 一 条 好 的 建议 ， 但 是 一 
且 你 已 经 编写 过 几 次 最 优 查 找 或 排序 的 算法 了 ， 那 么 与 编写 低 效 的 算法 相 比 ， 编 写 最 优 算 
法 并 不 会 更 难 。 而 且 你 也 可 以 在 初次 编写 算法 时 就 正确 地 实现 并 调试 一 种 算法 ， 这 样 以 后 
就 可 以 复 用 它 了 。 

实际 上 上， 常识 可 能 是 性 能 改善 最 大 的 敌人 。 例 如 ,“ 每 个 人 都 知道 ”最 优 排序 算法 的 时 间 
复杂 度 是 O(n log n)， 其 中 是 数据 集 的 大 小 (参见 5.1 节 中 关于 大 0 符号 和 时 间 开 销 的 简 
单 回顾 )。 这 条 常识 非常 有 价值 ， 甚 至 让 开发 人 员 不 相信 和 他们 的 O(n”) 插入 排序 (insertion 
sort) 算法 是 最 优 的 ， 但 如 果 它 阻止 了 开发 人 员 查 阅 文献 得 出 以 下 发 现 就 不 好 了 : 基数 排 
序 (radix sort)“ 算法 的 时 间 复 杂 度 是 O(n log,n) (其 中 了 是 基数 或 用 于 排序 的 桶 的 数量 ) ,处 
理 速度 更 快 ， 对 于 随机 分 布 的 数据 ，flashsort 算法 的 时 间 复 杂 度 是 O(n)， 处 理 速 度 更 快 ， 
还 有 快速 排序 算法 ， 根 据 常 识 人 们 将 它 作为 测量 其 他 排序 算法 性 能 的 测试 基准 ， 但 在 最 坏 
的 情况 下 ， 它 的 时 间 复 杂 度 是 Or”) 。 亚 里 士 多 德 曾 经 误 认为 “女人 的 牙齿 比 男人 少 ”( 出 
自 《 动 物 志 》 第 二 卷 第 一 部 分 ，http://classics.mit.edu/Aristotle/history_anim.2.ii.html) ， 这 个 
公认 的 观点 让 人 们 信奉 了 1500 年 ， 直 到 有 人 非常 好 奇 ， 数 了 几 张 嘴 中 的 牙齿 数 。 常 识 的 




























































































































































































注 6: 基数 排序 算法 也 被 称 为 “ 桶 排 法 "， 它 会 将 要 排序 的 元 素 分 配 至 某 些 “ 桶 ”中 。 
注 7: 快速 排序 算法 的 时 间 复 杂 度 最 优 为 O(n log n)， 最 坏 为 O(n )。 译 者 注 
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4 | 第 1 章 


“解毒 剂 ”是 实验 形式 的 科学 方法 。 在 第 3 章 中 我 们 将 利用 工具 测量 软件 性 能 ， 并 通过 实 
验 验证 优化 效果 。 

在 软件 开发 的 世界 中 ， 还 有 一 条 常识 : 优化 是 不 重要 的 。 这 条 常识 的 理由 是 ， 尽 管 现在 代 
码 运 行 得 很 慢 ， 但 是 每 年 都 会 有 更 快 的 处 理 器 被 研发 出 来 ， 随 着 时 间 的 推移 ， 它 们 会 免费 
帮 你 解决 性 能 问题 。 就 像 大 多 数 常 识 一 样 ， 这 种 想法 完全 错误 。 在 20 世纪 80 年 代 和 90 
年 代 ， 这 种 想法 似乎 看 起 来 是 正确 的 。 那 时 ， 桌 面 电 脑 和 独立 的 应 用 程序 占领 了 软件 开发 
领域 ， 而 且 单 核 处 理 器 的 处 理 速度 每 18 个 月 就 翻 一 倍 。 虽 然 总 的 看 来 ， 如 今 多 核 处 理 器 
的 性 能 不 断 强大 ， 但 是 单个 核心 的 性 能 增长 却 非 常 缓慢 ， 甚 至 有 时 还 有 所 下 降 。 如 今 的 程 
序 还 必须 运行 于 移动 平台 上 ， 电 池 的 电量 和 散热 都 制约 了 指令 的 执行 速率 。 而 且 ， 尽 管 随 
着 时 间 的 推移 ， 会 给 新 客户 带 来 更 快 的 计算 机 ， 但 是 也 无 法 改善 现 有 硬件 的 性 能 。 现 有 客 
户 的 工作 负载 随 着 时 间 的 推移 在 不 断 地 增加 。 你 的 公司 为 现 有 客户 提高 处 理 速 度 的 唯一 办 
法 是 发 布 性 能 优化 后 的 新 版 本 。 优 化 可 以 让 程序 永远 保持 活力 。 


1.4 ”这 儿 一 纳 秒 ， 那 儿 一 纳 秒 


这 儿 10 亿 ， 那儿 10 亿 ， 很 快 就 该 说 到 真 的 钱 了 。 
一 一 常 被 误 认 为 出 自 参 议员 Everett Dirkson (1898 一 1969) ， 但 他 宣称 自己 从 
未 说 过 这 向 话 ， 虽 然 他 承认 说 过 许多 类 似 的 话 

桌面 电脑 的 处 理 速度 快 得 惊人 ， 它 们 能 够 每 纳 秒 (或 者 以 更 快 的 速度 ) 分 发 一 条 指令 ， 这 可 是 
每 10? 秒 啊 ! 这 很 容易 让 人 误 以 为 当 计 算 机 的 性 能 如 此 强劲 时 ， 性 能 优化 可 能 就 无 所 谓 了 。 
这 种 思考 方式 的 问题 在 于 ， 处 理 器 的 处 理 速度 越 快 ， 被 浪费 的 指令 的 累积 速度 也 会 越 快 。 
如 果 一 个 程序 所 执行 的 指令 中 50% 都 是 不 必要 的 ， 那 么 不 管 这 些 不 必要 的 指令 的 执行 速度 
有 多 快 ， 只 要 删除 这 些 指 令 ， 程序 的 处 理 速 度 就 会 变 为 原来 的 两 倍 。 
那些 说 “性 能 无 所 谓 ” 的 同事 也 可 能 是 想 说 性 能 对 于 某 些 特殊 的 应 用 程序 一 一 例如 受 人 体 
反应 约束 或 运行 于 处 理 器 速度 极 快 的 桌面 计算 机 上 的 应 用 程序 一 一 无 所 谓 。 但 对 于 那些 运 
行 于 内 存 、 电 源 或 者 处 理 速度 受 限 的 小 型 蔡 入 式 设备 和 移动 处 理 器 上 的 应 用 程序 来 说 ， 性 
能 的 影响 非常 大 ， 对 于 那些 运行 于 大 型 计算 机 上 的 服务 器 程序 的 影响 也 非常 大 。 总 而 言 
之 ， 性 能 对 那些 必须 争夺 极其 有 限 的 计算 资源 (内 存 、 电 源 、CPU 周期 ) 的 应 用 程序 的 影 
响 非 常 大 。 同 样 ， 只 要 工作 负载 很 大 以 至 于 需要 进行 分 布 式 处 理 时 ， 性 能 的 影响 就 会 非常 
大 。 在 这 种 情况 下 ， 性 能 的 差距 会 决定 到 底 是 需要 100 台 服 务 器 或 云 实 例 ， 还 是 需要 500 
台 或 1000 台 。 


尽管 计算 机 的 性 能 在 近 50 年 提高 了 6 个 数量 级 ， 但 是 这 里 我 仍然 要 讨论 优化 。 以 史 为 鉴 ， 
在 未 来 优化 仍然 非常 重要 。 


1.5 C++ 代码 优化 策略 总 结 


围捕 惯 犯 。 
一 一 路 易 斯 雷诺 上 尉 ( 克 劳 德 。 雷 恩 斯 饰演 ) ， 电 影 《 卡 萨 布 兰 卡 》，1942 年 

















































































































































































































优化 概述 | 5 


C++ 的 混合 特性 为 我 们 提供 了 多 种 实现 方式 ， 一 方面 可 以 实现 性 能 管理 的 全 自动 化 ， 另 一 
方面 也 可 以 对 性 能 进行 更 加 精准 的 控制 。 正 是 这 些 选 择 方式 ， 使 得 优化 C++ 程序 以 满足 性 
能 需求 成 为 可 能 。 

C++ 有 一 些 热 点 代码 是 性 能 “ 惯 犯 ， 其 中 包括 函数 调用 、 内 存 分 配 和 循环 。 下 面 是 一 份 
改善 C++ 程序 性 能 的 方法 的 总 结 ， 也 是 本 书 的 大 纲 。 这 些 优 化 建议 简单 得 让 人 震惊 ， 而 且 
所 有 这 些 建议 都 是 曾经 发 表 过 的 。 当 然 ， 恶 魔 隐藏 在 细节 中 。 本 书 的 示例 和 局 发 将 会 帮助 
读者 在 优化 机 会 出 现时 更 好 地 把 握 住 它们 。 


1.5.1 用 好 的 编译 器 并 用 好 编译 器 

C++ 编译 器 是 非常 复杂 的 软件 构件 。 每 种 编译 器 为 C++ 语句 生成 的 机 器 码 都 有 差别 。 它 们 
所 看 到 的 优化 机 会 是 不 同 的 ， 会 为 相同 的 源 代码 产生 不 同 的 可 执行 文件 。 如 果 打 算 为 代码 
做 出 最 后 一 丁点 性 能 提升 ， 那 么 你 可 以 尝试 一 下 各 种 不 同 的 编译 器 ， 看 看 是 否 有 一 种 编译 
器 会 为 你 产生 更 快 的 可 执行 文件 。 
关于 如 何 选 择 C++ 编译 器 的 一 条 最 重要 的 建议 ， 是 使 用 支持 C++11 的 编译 器 。C++11 实 
现 了 右 值 引用 (rvalue reference) 和 移动 语义 (move semantics)， 可 以 省 去 许多 在 以 前 的 
C++ 版 本 中 无 法 避免 的 复制 操作 (我 会 在 6.6 节 讨 论 移动 语义 )。 


有 时 ， 用 好 的 编译 器 也 意味 着 用 好 编译 器 。 例 如 ， 如 果 应 用 程序 非常 缓慢 ， 那 么 你 应 当 检 
查 是 否 打开 了 编译 器 的 优化 选项 。 这 条 建议 看 似 非 常 明 显 ， 但 是 我 已 经 记 不 清 有 多 少 次 我 
向 其 他 人 提出 这 个 建议 后 ， 他 们 都 承认 在 编译 时 确实 忘记 打开 优化 选项 了 。 多 数 情况 下 ， 
只 要 正确 地 打开 了 优化 选项 ， 你 都 不 用 做 额外 的 优化 ， 因 为 编译 器 就 可 以 让 程序 的 运行 速 
度 提 高 数 倍 。 
默认 情况 下 ， 许 多 编译 器 都 不 会 进行 任何 优化 ， 因 为 如 果 不 进 行 优化 ， 编 译 器 就 可 以 稍微 
缩短 一 点 编译 时 间 。 这 一 点 在 20 世纪 90 年 代 曾 经 非常 重要 ， 但 是 如 今 的 编译 器 和 计算 机 
已 经 足够 快 了 ， 以 至 于 因 优化 而 产生 的 额外 的 编译 时 间 开 销 微不足道 。 当 关闭 优化 选项 
时 ， 调 试 也 会 变 得 更 加 简单 ， 因 为 程序 的 执行 流程 与 源 代码 完全 一 致 。 优 化 选项 可 能 会 将 
代码 移出 循环 、 移 除 一 些 函 数 调 用 和 完全 移 除 一 些 变量 。 当 编译 选项 打开 后 ， 有 些 编译 器 
将 不 会 生成 任何 调试 符号 。 虽 然 部 分 编译 器 可 能 仍然 会 生成 调试 符号 ， 但 是 开发 人 员 想 通 
过 在 调试 器 中 观察 执行 流程 来 理解 程序 正在 做 什么 就 会 变 得 非常 困难 。 许 多 编译 器 在 调试 
构建 时 允许 打开 和 关闭 个 别 不 会 过 多 干扰 调试 的 优化 选项 。 仅 仅 是 打开 函数 内 联 优化 选项 
就 可 以 显著 地 提升 C++ 程序 的 性 能 ， 因 为 编写 许多 小 的 成 员 函 数 去 访问 各 个 类 的 成 员 变 量 
是 一 种 优秀 的 C++ 编码 风格 。 


C++ 编译 器 的 文档 对 可 用 优化 选项 和 预 处 理 指令 做 了 全 面 说 明 。 这 份 文档 如 同 你 在 购买 新 
车 时 获取 的 操作 手册 一 样 一 一 你 完全 可 以 不 看 操作 手册 就 直接 坐 上 并 驾驶 你 的 新 车 ， 但 是 
其 中 可 能 包含 了 大 量 的 能 够 帮助 你 更 高 效 地 使 用 这 个 庞大 、 复 杂 的 工具 的 信息 。 

如 果 你 正在 Windows 或 者 Linux 上 开发 x86 体系 结构 的 应 用 程序 ， 那 么 你 很 幸运 ， 因 为 有 
一 些 非常 棒 的 编译 器 适合 你 ， 而 且 这 些 编译 器 的 开发 和 维护 也 处 于 非常 活跃 的 状态 。 在 本 
书 问世 的 前 五 年 ， 微 软 将 Visual C++ 升级 了 三 个 版 本 。 每 年 GCC 也 会 发 布 不 止 一 个 版 本 。 



















































































































































































在 2016 年 早期 ， 大 家 一 致 认 为 无 论 是 在 Linux 上 还 是 在 Windows 上 上， 英特尔 的 C++ 编译 
器 编译 出 来 的 代码 的 速度 都 最 快 ， 虽然 GNU 的 C++ 编译 器 GCC 编译 出 的 代码 的 速度 稍 
慢 , 但 是 非常 符合 标准 ， 而 微软 的 Visual C++ 则 折 中 。 虽 然 我 乐于 绘制 一 张 图 表 来 说 明 
英特尔 C++ 编译 器 产生 的 代码 比 GCC 快 很 多 ， 以 此 来 帮助 你 选择 编译 器 ， 但 这 取决 于 你 
的 代码 以 及 哪 家 厂商 或 是 组 织 又 发 布 了 一 个 提升 效率 的 升级 版 本 。 虽 然 购 买 英特尔 C++ 
编译 器 需要 花费 1000 多 美元 ， 但 它 有 30 天 的 免费 试用 期 。Visual C++ Express 是 免费 的 。 
Linux 上 的 GCC 是 永久 免费 的 。 因 此 ， 对 你 的 代码 进行 一 项 实验 ， 试 试 各 种 编译 器 可 以 带 
来 多 大 的 性 能 提升 ， 其 成 本 并 不 高 。 


1.5.2 ”使 用 更 好 的 算法 

选择 一 个 最 优 算法 对 性 能 优化 的 效果 最 大 。 各 种 优化 手段 都 能 改善 程序 的 性 能 。 它 们 可 以 
压缩 以 前 看 似 低 效 的 代码 的 执行 时 间 ， 就 像 通过 升级 PC 能 让 程序 运行 得 更 快 一 样 。 但 不 
地 的 是 ， 如 同 升 级 PC 一 样 ， 大 部 分 优化 手段 只 能 使 程序 性 能 呈 线 性 提升 。 许 多 优化 手段 
可 以 将 程序 性 能 提升 30% 至 100%。 如 有 果 足 够 幸运 ， 也 许 你 可 以 将 性 能 提升 至 三 倍 。 但 是 
除非 你 能 找到 一 种 更 加 高 效 的 算法 ， 否 则 要 想 实现 性 能 的 指数 级 增长 通常 是 不 太 可 能 久 







































































优化 战争 故事 

让 我 们 回 到 8 英寸 软盘 和 1MHz 处 理 器 的 时 代 。 某 位 开发 人 员 设 计 了 一 个 程序 来 管理 
电台 。 这 个 程序 的 功能 之 一 是 每 天 生成 一 份 日 志 ， 其 中 记录 了 排 好 序 的 当天 播放 过 的 
歌曲 。 问 题 是 这 个 程序 需要 大 约 27 小 时 才能 将 一 天 的 数据 排序 完毕 ， 很 明显 ， 这 让 人 
无 法 接受 。 为 了 让 这 个 重要 的 排序 处 理 能 够 运行 得 更 快 ， 这 位 开发 人 员 诉 诸 于 “英雄 
壮举 ”。 他 使 用 送 向 工程 破解 了 计算 机 ， 通 过 文档 上 没有 写 明 的 方式 侵入 了 微 代码 ,之 
后 编写 微 代 码 实现 了 在 内 存 中 进行 排序 ， 将 程序 运行 时 间 减 少 到 了 17 小时。 但 17 个 
小 时 仍然 太 长 了 。 最 后 他 绝望 了 ， 打 电话 给 计算 机 制造 商 (也 就 是 我 曾经 工作 过 的 公 
司 ) 求助 。 


我 问 这 位 开发 人 员 他 使 用 的 是 什么 排序 算法 ， 他 说 是 归并 排序 (Merge Sort) 。 归 并 排 
序 位 于 最 优 比 较 排 序 算法 之 列 。 那 么 他 对 多 少 条 记录 排序 呢 ? 他 回答 说 “ 几 二 条"。 这 
说 不 通 ， 他 所 使 用 的 系统 应 该 可 以 在 一 个 小 时 之 内 完成 对 数据 排序 。 


我 让 这 位 开发 人 员 描 述 了 算法 的 具体 细节 。 我 已 经 记 不 清 接 下 来 他 说 的 那些 折磨 人 的 
话 了 ， 不 过 我 发 现 了 他 实现 的 是 插入 排序 。 桂 入 排序 是 一 个 非常 糟糕 的 选择 ， 排 序 所 
需 时 间 与 记录 数 的 平方 成 正比 (请 参考 5.4.1 节 )。 他 知道 有 种 叫 作 “归并 排序 ”的 最 
优 算法 。 但 他 却 用 Merge 和 Sort 两 个 单词 描述 出 插入 算法 。 


我 使 用 真正 的 归并 排序 为 这 位 顾客 编写 了 一 个 非常 普通 的 排序 例 程 ， 这 个 例 程 只 需要 
45 分 钟 就 可 以 完成 他 的 数据 排序 。 











“英勇 ”地 去 优化 一 个 糟糕 的 算法 很 思春 。 对 代码 优化 而 言 ， 学 习 和 使 用 查找 和 排序 的 最 
优 算法 才 是 康 庄 大 道 。 一 个 低 效 的 查找 或 排序 算法 的 例 程 可 以 完全 占用 一 个 程序 的 运行 时 
间 。 修 改 代码 可 以 将 程序 运行 时 间 减 少 一 半 。 但 是 替换 一 种 更 优 的 算法 后 ， 数 据 集 越 大 ， 
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可 以 缩短 的 运行 时 间 就 越 多 。 即 使 在 一 个 只 有 一 打数 据 的 小 数据 集 上 ， 如 果 频 繁 查找 数 
据 ， 最 优 的 查找 或 排序 算法 也 可 以 帮 你 节省 很 多 时 间 。 第 5 章 将 带 读者 认识 最 优 算法 。 

最 优 算法 适用 于 大 大 小 小 的 各 种 程序 ， 从 精简 的 闭 式 计算 到 短小 的 关键 字 查 找 函 数 ， 再 
到 复杂 的 数据 结构 和 大 规模 的 程序 。 市 面 上 有 许多 优秀 的 图 书 讨论 了 这 个 主题 。 开 发 人 员 
在 职业 生涯 中 都 应 该 不 断 学 习 这 些 知识 。 很 遗憾 ， 在 本 书 中 我 只 能 对 优化 算法 主题 浅 谈 
力 止 。 

5.5 节 将 讲解 儿 个 改善 程序 性 能 的 重要 技巧 ， 其 中 包括 预计 算 (precomputation， 将 计算 从 
运行 时 移动 至 链接 、 编 译 或 是 设计 时 )、 延 迟 计算 (lazy computation， 如 果 通 常 计算 结果 
“会 被 使 用 ， 那 么 将 计算 推迟 至 真正 需要 使 用 计算 结果 时 ) 和 缓存 (caching， 节 省 和 复 用 
昂贵 的 计算 )。 第 7 章 会 使 用 很 多 示例 来 实践 这 些 技巧 。 


1.5.3 ”使 用 更 好 的 库 
C++ 编译 器 提供 的 标准 C++ 模板 库 和 运行 时 库 必 须 是 可 维护 的 、 全 面 的 和 非常 健壮 的 。 令 
开发 人 员 吃 惊 的 是 ， 我 们 无 需 对 这 些 库 进行 调 优 。 可 能 更 令 人 吃惊 的 是 ， 虽 然 C++ 已 经 发 
明 出 来 30 年 多 了 ， 商 业 C++ 编译 器 的 库 仍 然 有 bug， 而 且 可 能 不 遵循 现在 的 C++ 标准， 
甚至 不 遵循 编译 器 发 布 时 的 标准 。 这 使 得 测量 和 推荐 优化 方法 的 任务 变 得 非常 复杂 ， 也 使 
得 开发 人 员 认 为 没有 任何 优化 经 验 是 可 以 移植 的 。 第 8 章 将 讨论 这 些 问题 。 

对 进行 性 能 优化 的 开发 人 员 来 说 ， 掌 握 标 准 C++ 模板 库 是 必需 的 技能 。 本 书 对 查找 和 排序 
算法 (第 9 章 )、 容 器 类 的 最 优 惯用 法 (第 10 章 ) 、1O (第 11 章 )、 并 发 (第 12 章 ) 和 
内 存 管理 (第 13 章 ) 提出 了 一 些 优化 建议 。 

有 一 些 开 源 库 实现 了 非常 重要 的 功能 ， 如 内 存 管理 (请 参见 13.2 节 )。 它 们 提供 的 复杂 的 
实现 可 能 比 供应 商 提供 的 C++ 运行 时 库 更 快 、 更 强 。 这 些 可 供 选 择 的 开源 库 的 一 个 优势 
是 ， 它 们 很 容易 地 整合 至 现 有 的 工程 中 ， 并 能 够 立即 改善 程序 性 能 。 

Boost Project (http://www.boost.org) 和 Google Code (https://code.google.com) 等 公开 了 很 
多 可 供 使 用 的 库 ， 其 中 有 一 些 用 于 IJO、 窗 口 、 处 理 字 符 串 〈 请 参见 4.3.3 节 ) 和 并 发 (请 
参见 12.5 节 ) 的 库 。 它 们 虽然 不 是 标准 库 的 替代 品 ， 却 可 以 帮助 我 们 改善 性 能 和 加 入 新 的 
特性 。 这 些 库 在 设计 上 的 权衡 与 标准 库 不 同 ， 从 而 获得 了 处 理 速 度 上 的 提升 。 


最 后 ， 开 发 人 员 还 可 以 开发 适合 自己 项 目的 库 ， 通 过 放松 标准 库 中 的 某 些 安全 性 和 健壮 性 
约束 来 换取 更 快 的 运行 速度 。 我 会 在 第 8 章 中 讲解 以 上 这 些 内 容 。 

某 些 方式 的 函数 调用 的 开销 非常 大 〈 请 参见 7.2.1 节 )。 优 秀 的 函数 库 的 API 所 提供 的 函数 
反映 了 这 些 API 的 惯用 法 ,使 得 用 户 可 以 无 需 频 繁 地 调用 其 中 的 基础 函数 。 例 如 ， 如 果 一 
个 用 于 获取 字符 的 API 只 提供 了 get_char() 函数 ， 那 么 用 户 在 获取 每 个 字符 时 都 需要 进行 
一 次 函数 调用 。 而 如 果 这 个 API 同时 提供 一 个 get_buffer() 函数 ， 就 可 以 避免 在 获取 每 个 
字符 时 都 发 生 兄 贵 的 函数 调用 开销 。 

要 想 隐 藏 高 度 优化 后 的 程序 的 复杂 性 ， 函 数 和 类 库 是 非常 合适 的 地 方 。 作 为 调用 库 的 回 
报 ， 它 们 会 以 最 高 的 效率 完成 工作 。 库 函数 通常 位 于 深层 舱 僚 调用 链 的 底 端 ， 在 那里 ， 性 
能 改善 的 效果 会 更 加 明显 。 
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1.5.4 减少 内 存 分 配 和 复制 
减少 对 内 存 管理 器 的 调用 是 一 种 非常 有 效 的 优化 手段 ， 以 至 于 开发 人 员 只 要 掌握 了 这 一 个 
技巧 就 可 以 变 为 成 功 的 性 能 优化 人 员 。 绝 大 多 数 C++ 语言 特性 的 性 能 开销 最 多 只 是 几 个 指 
令 ， 但 是 每 次 调用 内 存 管 理 器 的 开销 却 是 数 千 个 指令 。 

由 于 字符 串 是 许多 C++ 程序 中 非常 重要 (和 性 能 开销 大 ) 的 部 分 ， 我 用 了 整整 一 章 将 其 
为 优化 手段 的 案例 分 析 。 第 4 章 中 介绍 和 引导 出 了 许多 在 大 家 所 熟知 的 字符 串 处 理 背 景 下 
的 优化 概念 。 第 6 章 将 讲解 如 何 既 减少 动态 内 存 分 配 的 性 能 开销 又 不 放弃 实用 的 C++ 编程 
惯用 法 ， 比 如 字符 串 和 标准 库容 器 。 


对 缓存 复制 国 数 的 一 次 调用 也 可 能 消耗 数 千 个 CPU 周期 。 因 此 ， 很 明显 减少 复制 是 一 种 
提高 代码 运行 速度 的 优化 方式 。 大 量 复制 的 发 生 都 与 内 存 分 配 有 关 ， 所 以 修改 一 处 往往 也 
会 消灭 另 一 处 。 其 他 可 能 会 发 生 复制 的 热点 代码 是 构造 函数 和 赋值 运算 符 以 及 输入 输出 。 
第 6 章 将 讨论 这 个 主题 。 


1.5.5 ” 移 除 计算 


除了 内 存 分 配 和 函数 调用 外 ， 单 条 C++ 语句 的 性 能 开销 通常 都 很 小 。 但 是 如 果 在 循环 中 
执行 100 万 次 这 条 语句 ， 或 是 每 次 程序 处 理事 件 时 都 执行 这 条 语句 ， 那 么 这 就 是 个 大 问题 
了 。 绝 大 多 数 程序 都 会 有 一 个 或 多 个 主要 的 事件 处 理 循环 和 一 个 或 多 个 处 理 字符 的 函数 。 
找 出 并 优化 这 些 循 环 几 乎 总 是 可 以 让 性 能 优化 硕果 累累 。 第 7 章 提出 了 一 些 帮 助 你 找 出 频 
繁 被 执行 的 语句 的 建议 ， 你 会 发 现 这 些 语 句 几乎 总 是 位 于 循环 处 理 中 。 

以 性 能 优化 为 主题 的 文献 介绍 了 许多 高 效 地 使 用 单独 的 C++ 语句 的 技巧 。 许 多 程序 员 相信 
这 些 诀窍 是 优化 的 基础 。 这 种 看 法 的 问题 在 于 ， 除 非 一 段 代码 真 的 是 热点 代码 (被 频繁 地 
执行 的 代码 )， 否 则 从 中 移 除 一 两 句 内 存 访问 对 程序 的 整体 性 能 不 会 有 什么 改善 。 第 3 章 
将 介绍 在 尝试 减少 计算 数量 之 前 ， 如 何 确 定 程序 中 的 哪 部 分 会 被 频繁 地 执行 。 


同时 ， 现代 C++ 编译 器 在 进行 这 些 局 部 改善 方面 也 做 得 非常 优秀 了。 因此， 开发 人 员 不 
应 当 有 强迫 症 ， 将 大 段 代码 中 的 出 现 的 i++ 都 换 成 ++i， 或 是 展开 所 有 的 循环 ， 不 遗 余力 
地 向 每 位 同事 讲解 什么 是 达 夫 设备 (Duffs Device)“ 以 及 它 的 优点 。 当 然 ,我 仍然 会 在 第 7 
章 简单 地 介绍 一 下 这 些 技巧 。 


1.5.6 ”使 用 更 好 的 数据 结构 


选择 最 合适 的 数据 结构 对 性 能 有 着 深刻 的 影响 ， 因 为 插入 、 迭 代 、 排 序 和 检索 元 素 的 算法 
的 运行 时 开销 取决 于 数据 结构 。 除 此 之 外 ， 不 同 的 数据 结构 在 使 用 内 存 管理 器 的 方式 上 也 
有 所 不 同 。 另 一 个 原因 是 数据 结构 可 能 有 也 可 能 没有 优秀 的 缓存 本 地 化 。 第 10 章 将 探索 
C++ 标准 库 提供 的 数据 结构 的 性 能 、 行 为 和 权衡 。 第 9 章 将 讨论 使 用 标准 库 算法 去 实现 基 
于 简单 矢量 和 C 数组 的 表 数 据 结 构 。 
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注 8: 由 汤姆 . 达 夫 在 户 卡 斯 影 业 工 作 时 所 设计 的 循环 展开 方法 。 一 一 译 者 注 
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1.5.7 ”提高 并 发 性 


大 多 数 程序 都 需要 等 待 发 生 在 物理 现实 世界 中 的 无 聊 、 慢 吞 吞 的 活动 完成 。 它 们 必须 等 待 
文件 从 硬盘 上 读 取 完 成 、 网 页 从 互联 中 返回 或 者 是 用 户 的 手指 缓慢 地 按 下 键盘 。 任 何 时 
候 ， 如 果 一 个 程序 的 处 理 进度 因 需 要 等 待 这 些 事件 被 暂停 ， 而 没有 利用 这 些 时 间 进 行 其 他 


























处 理 ， 都 是 一 种 浪费 。 























现代 计算 机 都 可 以 使 用 多 个 处 理 核心 来 执行 指令 。 如 果 一 项 工作 被 分 给 几 个 处 理 器 执行 ， 


那么 它 可 以 更 快 地 执行 完毕 。 








伴随 并 发 执行 而 来 的 是 用 于 同步 并 发 线程 让 它们 可 以 共享 数据 的 工具 。 有 人 可 以 用 好 这 些 
工具 ， 有 人 则 用 不 好 。 第 12 章 探讨 了 如 何 高 效 地 控制 并 发 线程 同步 。 





1.5.8 ”优化 内 存 管理 
内 存 管 理 器 作为 C++ 运行 时 库 中 的 一 部 分 ， 管 理 


























LE 着 动态 内 存 分 配 。 它 在 许多 C++ 程序 中 





都 会 被 频繁 地 执行 。C++ 确实 为 内 存 管理 提供 了 丰富 的 API， 虽 然 多 数 开发 人 员 都 从 来 没 
有 使 用 过 。 第 13 章 将 展示 一 些 改 善 内 存 管 理 效率 的 技术 。 














1.6 ”小结 





本 书 将 帮助 开发 人 员 识 别 和 利用 以 下 优化 机 会 来 改善 代码 性 能 。 





。 使 用 更 好 的 编译 器 ， 打 开 编译 选项 
。 使 用 最 优 算法 

。 使 用 更 好 的 库 并 用 好 库 
。 减少 内 存 分 配 
。 减少 复制 

。 移 除 计算 

。 使 用 最 优 数据 结构 
。 提高 并 发 

。 优化 内 存 管理 

















正如 我 之 前 所 说 过 的 ， 亚 魔 隐藏 在 细节 中 。 让 我 们 进入 正题 吧 。 
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影响 优化 的 计算 机 行为 





捐 谨 ， 即 讲述 美丽 而 不 真实 的 故事 ， 乃 是 艺术 的 真正 目的 。 
一 一 奥斯卡 ,王尔德 “谎言 的 豪 朽 ”, 《意图 集 》，1891 年 


本 章 的 目的 是 为 读者 提供 与 本 书 中 所 描述 的 优化 技术 相关 的 计算 机 硬件 的 最 基本 的 背景 知 
识 ， 这 样 读者 就 不 必 疯 狂 地 研究 那 600 多 页 的 处 理 器 手册 了 。 本 章 我 们 将 简单 地 了 解 处 理 
器 的 体系 结构 ， 从 中 获得 性 能 优化 的 启发 。 虽 然 本 章 中 的 信息 非常 重要 且 实 用 ,但 迫 不 及 
待 地 想 学 习 优化 技术 的 读者 可 以 先 跳 过 本 章 ， 当 在 后 面 的 章节 中 遇 到 本 章 中 的 知识 时 再 回 
过 头 来 学 习 。 

如 今 所 使 用 的 微 处 理 器 设备 的 种 类 多 样 ， 从 只 有 儿 千 个 逻辑 门 且 时 钟 频率 低 于 1MHz 的 价 
值 1 美元 的 甘 入 式 设备 ， 到 有 数 十 亿 逻 辑 门 县 时钟 频率 达到 千 兆 赫兹 级 别 的 桌面 级 设备 。 
一 台 包 含 数 千 个 独立 执行 单元 的 大 型 计算 机 的 尺寸 可 以 与 一 个 大 房间 相当 ， 它 消耗 的 电力 
足够 点 亮 一 座 小 城市 中 所 有 的 电灯 。 这 很 容易 让 人 误 以 为 这 些 种 类 繁多 的 计算 设备 之 间 的 
联系 不 具有 一 般 性 。 但 事实 上 ， 它 们 之 间 是 有 可 利用 的 相似 点 的 。 毕 竞 ， 如 果 没 有 任何 相 
似 点 的 话 ， 编 译 器 就 无 法 为 这 么 多 处 理 器 编译 C++ 代码 了 。 


所 有 这 些 被 广泛 使 用 的 计算 机 都 会 执行 存储 在 内 存 中 的 指令 。 指 令 所 操作 的 数据 也 是 存 
储 在 内 存 中 的 。 内 存 被 分 为 许多 小 的 字 (word) ， 这 些 字 由 若干 位 (bit) 组 成 。 其 中 一 
小 部 分 宝贵 的 内 存 字 是 寄存 器 (register) ， 它 们 的 名 字 被 直接 定义 在 机 器 指令 中 。 其 他 
绝 大 多 数 内 存 字 则 都 是 以 数值 型 的 地 址 (address) 命名 的 。 每 台 计 算 机 中 都 有 一 个 特 
殊 的 寄存 器 保存 着 下 一 条 待 执行 的 指令 的 地 址 。 如 果 将 内 存 看 作 一 本 书 ， 那 么 执行 地 
址 (execution address) 就 相当 于 指向 要 阅读 的 下 一 个 单词 的 手指 。 执 行 单 元 (execution 
unit， 也 被 称 为 处 理 器 、 核 心 、CPU、 运 算 器 等 其 他 名 字 ) 从 内 存 中 读 取 指令 流 ， 然 后 执 
行 它们 。 指 令 会 告诉 执行 单元 要 从 内 存 中 读 取 (加 载 ， 取 得 ) 什么 数据 ， 如 何 处 理 数据 ， 
以 及 将 什么 结果 写 入 (存储 、 保 存 ) 到 内 存 中 。 计 算 机 是 由 遵守 物理 定律 的 设备 组 成 的 。 
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从 内 存 地 址 读 取 数据 和 向 内 存 地 址 写 入 数据 是 需要 花费 时 间 的 ， 指 令 对 数据 进行 操作 也 
是 需要 花费 时 间 的 。 


除了 这 条 基本 原则 外 ， 就 如 每 个 计算 机 专业 新 生 都 知道 的 ， 计 算 机 体系 结构 的 “族谱 ”也 
会 不 断 地 扩大 。 因 为 计算 机 体系 结构 是 易 变 的 ， 所 以 很 难 严格 地 测量 出 硬件 行为 在 数值 上 
的 规律 。 现 代 处 理 器 做 了 许多 不 同 的 、 交 互 的 事情 来 提高 指令 执行 速度 ， 导 致 指令 的 执行 
时 间 实 际 上 变 得 难以 确定 。 还 有 一 个 问题 是 ， 许 多 开发 人 员 甚 至 无 法 准确 地 知道 他 们 的 代 
码 会 运行 在 什么 处 理 器 上 ， 多 数 情况 下 只 能 用 试探 法 。 


2.1 C++ 所 相信 的 计算 机 谎言 


当然 ，C++ 程序 至 少 会 假装 相信 上 节 中 讲解 过 的 简单 的 计算 机 基本 模型 中 的 一 个 版 本 。 其 

中 有 可 以 以 固定 字符 长 度 的 字 节 为 单位 寻 址 ， 在 本 质 上 容量 是 无 限 的 内 存 。 有 一 个 与 其 他 

任何 有 效 的 内 存 地 址 都 不 同 的 特殊 的 地 址 ， 叫 作 nuLLptr。 整 数 0 会 被 转换 为 nuLLptr， 尽 

管 在 地 址 0 上 不 需要 nullptr。 有 一 个 概念 上 的 执行 地 址 指向 正在 被 执行 的 源 代码 语句 。 

各 条 语句 会 按照 编写 顺序 执行 ， 受 到 C++ 控制 流程 语句 的 控制 。 

C++ 知道 计算 机 远 比 这 个 简单 模型 要 复杂 。 它 在 这 台 办 内 发 亮 的 机 器 下 提供 了 一 些 快 

速 功能 。 

。 C++ 程序 只 需要 表现 得 好 像 语句 是 按照 顺序 执行 的 。C++ 编译 器 和 计算 机 自身 只 要 能 
够 确保 每 次 计算 的 含义 都 不 会 改变 ， 就 可 以 改变 执行 顺序 使 程序 运行 得 更 快 。 

。 自 C++ll 开始 ，C++ 不 再 认为 只 有 一 个 执行 地 址 。C++ 标准 库 现 在 支持 启动 和 终止 线 
程 以 及 同步 线程 间 的 内 存 访 问 。 在 C++11 之 前 , 程序 员 对 C++ 编译 器 隐瞒 了 他 们 的 线程 ， 
有 时 候 这 会 导致 难以 调试 。 

。 某 些 内 存 地 址 可 能 是 设备 寄存 器 ， 而 不 是 普通 内 存 。 这 些 地 址 的 值 可 能 会 在 同一 个 
线程 对 该 地 址 的 两 次 连续 读 的 间隔 发 生变 化 ， 这 表示 硬件 发 生 了 变化 。 在 C++ 中 用 
volatile 关键 字 定 义 这 些 地 址 。 声 明 一 个 volatile 变量 会 要 求 编译 器 在 每 次 使 用 该 变 
量 时 都 获取 它 的 一 份 新 的 副本 ， 而 不 用 通过 将 该 变量 的 值 保 存在 一 个 寄存 器 中 并 复 用 它 
来 优化 程序 。 另 外 ， 也 可 以 声明 指向 volatile 内 存 的 指针 。 

。 C++11 提供 了 一 个 名 为 std: :atomic<> 的 特性 ， 可 以 让 内 存在 一 段 短暂 的 时 间 内 表现 得 
仿佛 是 字 节 的 简单 线性 存储 一 样 ， 这 样 可 以 远离 所 有 现代 处 理 器 的 复杂 性 ， 包 括 多 线程 
执行 、 多 层 高 速 缓存 等 。 有 些 开 发 人 员 误 以 为 这 与 volatile 是 一 样 的 ， 甚 实 他 们 错 了 。 


操作 系统 也 欺骗 了 程序 和 用 户 。 实 际 上 ， 操 作 系 统 的 目的 就 是 为 了 给 每 个 程序 讲 一 个 让 它 
们 信服 的 谎言 。 最 重要 的 谎言 之 一 是 ， 操 作 系统 希望 每 个 程序 都 相信 它们 是 独立 运行 于 计 
算 机 上 的 ， 而 且 这 些 计算 机 的 内 存 是 无 限 的 ， 还 有 无 限 的 处 理 喜 来 运行 程序 的 所 有 线程 。 


操作 系统 会 使 用 计算 机 硬件 来 隐藏 这 些 谎言 ， 这 样 C++ 不 得 不 相信 它们 。 除 了 降低 程序 的 运 
行 速度 外 ， 这 些 谎言 其 实 对 程序 运行 并 没有 什么 影响 。 不 过 ， 它 们 会 导致 性 能 测量 变 得 复杂 。 


2.2 计算 机 的 真相 


只 有 最 简单 的 微 处 理 器 和 某 些 具有 悠久 历史 的 大 型 机 才 直 接 与 C++ 模型 相符 。 对 性 能 优化 
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而 言 非常 重要 的 是 ， 真 实 计 算 机 的 实际 内 存 硬 件 的 处 理 速度 与 指令 的 执行 速率 相 比 是 很 慢 
的 。 内 存 并 非 真 的 是 以 字 节 为 单位 被 访问 的 ， 内 存 并 非 是 一 个 由 相同 元 素 组 成 的 简单 的 线 
性 数组 ， 而 且 它 的 容量 也 是 有 限 的 。 真 实 的 计算 机 可 能 有 不 止 一 个 指令 地 址 。 真 实 的 计算 
机 非常 快 ， 但 并 非 因为 它们 执行 指令 非常 快 ， 而 是 因为 它们 同时 执行 许多 指令 ， 而 且 它 们 
内 部 的 复杂 电路 可 以 确保 这 些 同时 执行 的 指令 表现 得 就 像 一 个 接 一 个 地 执行 一 样 。 


2.2.1 内存 很 慢 

计算 机 的 主 内 存 相 对 于 它 内 部 的 逻辑 门 和 寄存 器 来 说 非常 慢 。 将 电子 从 微 处 理 器 蕊 片 中 注入 
相对 广阔 的 一 块 铜 制 电路 板 上 的 电路 ， 然 后 将 其 沿 着 电路 推 到 儿 厘 米 外 的 内 存 蕊 片 中 ， 这 个 
过 程 所 花费 的 时 间 为 电子 穿越 微 处 理 器 内 各 个 独立 的 微 距 晶体 管 所 需 时 间 的 数 千 倍 。 主 内 存 
太 慢 ， 所 以 桌面 级 处 理 器 在 从 主 内 存 中 读 取 一 个 数据 字 的 时 间 内 ， 可 以 执行 数 百 条 指令 。 
优化 的 根据 在 于 处 理 器 访问 内 存 的 开销 远 比 其 他 开销 大 ， 包 括 执 行 指令 的 开销 。 
























































冯 ' 详 伊 曼 瓶 颈 
通 往 主 内 存 的 接口 是 限制 执行 速度 的 瓶颈 。 这 个 瓶颈 甚至 有 一 个 名 字 ， 叫 冯 。 诺 伊 曼 
壮 颈 。 它 是 以 著名 的 计算 机 体系 结构 先锋 和 数学 家 约翰 ， 冯 ， 诺 伊 曼 (1903 一 1957) 的 
名 字 命 名 的 。 
例如 ， 一 台 使 用 主 频 为 1000MHz 的 DDR2 内 存 设 备 的 个 人 计算 机 ( 几 年 前 典型 的 计 
算 机 ， 容 易 计 算 其 性 能 ) ， 其 理论 带宽 是 每 秒 20 亿 字 ， 也 就 是 每 字 500 皮 秒 (ps)。 但 
这 并 不 意味 着 这 台 计 算 机 每 500 皮 秒 就 可 以 读 或 写 一 个 随机 的 数据 字 。 


首先 ， 只 有 顺序 访问 才能 在 一 个 周期 内 完成 (相当 于 频率 为 1000MHz 的 时 钟 的 半 个 时 
标 ) 。 而 访问 一 个 非 连续 的 位 置 则 会 花费 6 至 10 个 周期 。 


多 个 活动 会 争夺 对 内 存 总 线 的 访问 。 处 理 器 会 不 断 地 读 取 包 含 下 一 条 需要 执行 的 指 
令 的 内 存 。 高 速 缓存 榨 制 器 会 将 数据 内 存 块 保存 至 高 速 缓存 中 ， 刷 新 已 写 的 缓存 行 。 
DRAM 控制 器 还 会 “ 偷 用 ”周期 刷新 内 存 中 的 动态 RAM 基本 存储 单元 的 电荷 。 多 核 
处 理 器 的 核心 数量 足以 确保 内 存 总 线 的 通信 数据 量 是 饱和 的 。 数 据 从 主 内 存 读 取 至 某 
个 核心 的 实际 速率 大 概 是 每 字 20 至 80 纳 秒 (ns) 。 

根据 摩尔 定律 ， 每 年 处 理 器 核心 的 数量 都 会 增加 。 但 是 这 也 无 法 让 连接 主 内 存 的 接口 
变 快 。 因 此 ， 未 来 核心 数量 成 倍 地 增加 ， 对 性 能 的 改善 效果 却 是 递减 的 。 这 些 核心 只 
能 等 待 访 问 内 存 的 机 会 。 上 述 对 性 能 的 隐 式 限制 被 称 为 内 存 墙 (memory wall) 。 











2.2.2 ”内 存 访问 并 非 以 字 节 为 单位 

虽然 C++ 认为 每 个 字 节 都 是 可 以 独立 访问 的 ， 但 计算 机 会 通过 获取 更 大 块 的 数据 来 补偿 组 
慢 的 内 存 速 度 。 最 小 型 的 处 理 器 可 以 每 次 从 主 内 存 中 获取 1 字 节 ， 桌 面 级 处 理 器 则 可 以 立 
即 获 取 64 字 节 。 一 些 超级 计算 机 和 图 形 处 理 器 还 可 以 获取 更 多 。 


当 C++ 获取 一 个 多 字 贡 类 型 的 数据 ， 比 如 一 个 int、double 或 者 指针 时 ， 构 成 数据 的 字 
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节 可 能 跨越 了 两 个 物理 内 存 字 。 这 种 访问 被 称 为 非 对 齐 的 内 存 访问 (unaligned memory 
access) 。 此 处 优化 的 意义 在 于 ， 一 次 非 对 齐 的 内 存 访问 的 时 间 相 当 于 这 些 字 节 在 同一 个 字 
中 时 的 两 倍 ， 因 为 需要 读 取 两 个 字 。C++ 编译 器 会 帮助 我 们 对 齐 结构 体 ， 使 每 个 字段 的 起 
始 字 节 地 址 都 是 该 字段 的 大 小 的 倍数 。 但 是 这 样 也 会 带 来 相应 的 问题 : 结构 体 的 “ 洞 ”中 
包含 了 无 用 的 数据 。 在 定义 结构 体 时 ， 对 各 个 数据 字段 的 大 小 和 顺序 稍 加 注意 ， 可 以 在 保 
持 对 齐 的 前 提 下 使 结构 体 更 加 紧凑 。 


2.2.3 ” 某 些 内 存 访问 会 比 其 他 的 更 慢 

为 了 进一步 补偿 主 内 存 的 缓慢 速度 ， 许 多 计算 机 中 都 有 高 速 缓存 (cache memory)， 一 种 非 
常 接近 处 理 器 的 快速 的 、 临 时 的 存储 ， 来 加 快 对 那些 使 用 最 频繁 的 内 存 字 的 访问 速度 。 一 
些 计算 机 没有 高 速 缓存 ， 其 他 一 些 计算 机 则 有 一 层 或 多 层 高 速 缓存 ， 其 中 每 一 层 都 比 前 一 
层 更 小 、 更 快 和 更 昂贵 。 当 一 个 执行 单元 要 获取 的 字 节 已 经 被 缓存 时 ， 无 需 访 问 主 内 存 即 
可 立即 获得 这 些 字 节 。 高 速 缓存 的 速度 快 多 少 呢 ? 一 种 大 致 的 估算 经 验 是 ， 高 速 缓存 层次 
中 每 一 层 的 速度 大 约 是 它 下 面 一 层 的 10 倍 。 在 桌面 级 处 理 器 中 ， 通 过 一 级 高 速 缓存 、 二 
级 高 速 缓存 、 三 级 高 速 缓存 、 主 内 存 和 磁盘 上 的 虚拟 内 存 页 访问 内 存 的 时 间 开 销 范围 可 以 
跨越 五 个 数量 级 。 这 就 是 专注 于 指令 的 时 钟 周 期 和 其 他 “奥秘 ”经 常会 令 人 恼怒 而 且 没 有 
效果 的 一 个 原因 ， 高 速 缓存 的 状态 会 让 指令 的 执行 时 间 变 得 非常 难以 确定 。 

当 执行 单元 需要 获取 不 在 高 速 缓存 中 的 数据 时 ， 有 一 些 当前 处 于 高 速 缓存 中 的 数据 必须 被 
舍弃 以 换取 足够 的 空余 空间 。 通 常 ， 选 择 放弃 的 数据 都 是 最 近 很 少 被 使 用 的 数据 。 这 一 点 
与 性 能 优化 有 着 紧密 的 关系 ， 因 为 这 意味 着 访问 那些 被 频繁 地 访问 过 的 存储 位 置 的 速度 会 
比 访 问 不 那么 频繁 地 被 访问 的 存储 位 置 更 快 。 


读 取 一 个 不 在 高 速 缓存 中 的 字 节 甚至 会 导致 许多 临近 的 字 节 也 都 被 缓存 起 来 (这 也 意味 
着 ， 许 多 当前 被 缓存 的 字 节 将 会 被 舍弃 ) 。 这 些 临 近 的 字 节 也 就 可 以 被 高 速 访问 了 。 对 于 
性 能 优化 而 言 ， 这 一 点 非常 重要 ， 因 为 这 意味 着 平均 而 言 ， 访 问 内 存 中 相 邻 位 置 的 字 节 要 
比 访问 互相 远 隔 的 字 节 的 速度 更 快 。 
就 C++ 而 言 ， 这 表示 一 个 包含 循环 处 理 的 代码 块 的 执行 速度 可 能 会 更 快 。 这 是 因为 组 成 
循环 处 理 的 指令 会 被 频繁 地 执行 ， 而 且 互相 紧 挨 着 ， 因 此 更 容易 留 在 高 速 缓 在 中 。 一 段 包 
含 函数 调用 或 是 含有 if 语句 导致 执行 发 生 跳 转 的 代码 则 会 执行 得 较 慢 ， 因 为 代码 中 各 个 
独立 的 部 分 不 会 那么 频繁 地 被 执行 ， 也 不 是 那么 紧邻 着 。 相 比 紧凑 的 循环 ， 这 样 的 代码 在 
高 速 缓存 中 会 占用 更 多 的 空间 。 如 果 程序 很 大 ， 而 且 缓 在 有 限 ， 那 么 一 些 代码 必须 从 高 速 
缓存 中 舍弃 以 为 其 他 代码 腾 出 空间 ， 当 下 一 次 需要 这 段 代码 时 ， 访 问 速度 会 变 慢 。 类 似 
地 ， 访 问 包 含 连续 地 址 的 数据 结构 (如 数组 或 矢量 ) ， 要 比 访问 包含 通过 指针 链接 的 节点 
的 数据 结构 快 ， 因 为 连续 地 址 的 数据 所 需 的 存储 空间 更 少 。 访 问 包含 通过 指针 链接 的 记录 
的 数据 结构 (例如 链表 或 者 树 ) 可 能 会 较 慢 ， 这 是 因为 需要 从 主 内 存 读 取 每 个 节点 的 数据 
到 新 的 缓存 行 中 。 


2.2.4 内 存 字 分 为 大 端 和 小 端 
处 理 器 可 以 一 次 从 内 存 中 读 取 一 字 节 的 数据 ， 但 是 更 多 时 候 都 会 读 取 由 几 个 连续 的 字 节 组 
成 的 一 个 数字 。 例 如 ， 在 微软 的 Visual C++ 中 ， 读 取 int 值 时 会 读 取 4 字 节 。 由 于 同一 个 
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内 存 可 以 以 两 种 不 同 的 方式 访问 ， 设 计 计算 机 的 人 必须 面 对 一 个 问题 ， 首 字 节 ， 即 最 低地 
址 字 节 ， 是 组 成 int 的 最 高 有 效 位 还 是 最 低 有 效 位 呢 ? 
乍 一 看 ， 这 似乎 没什么 问题 。 当 然 ， 一 台 计 算 机 中 的 所 有 部 件 就 “最 低地 址 是 int 的 哪 一 
端 ” 这 一 点 达成 一 臻 是 非常 重要 的 ， 否 则 就 会 出 现 混 乱 。 而 且 ， 它 们 之 间 的 区 别 是 非常 明 
显 的 。 如 果 ;int 值 0x01234567 存储 在 地 址 1000~1003 中 ， 而 且 首 先 存储 小 端 ， 那 么 在 地 
址 1000 中 存储 的 是 0x01， 在 地 址 1003 中 存储 的 是 0x67。 反 之 ， 如 果 首 先 存储 大 端 ， 那 
么 在 地 址 1000 中 存储 的 是 0x67，0x01 被 存储 在 地 址 1003 中 。 从 首 字 节 地 址 读 取 最 高 有 
效 位 的 计算 机 被 称 为 大 端 计算 机 ， 小 端 计算 机 则 会 首先 读 取 最 低 有 效 位 。 因 为 有 两 种 存储 
整数 值 (或 指针 ) 的 方式 ， 而 且 找 不 到 偏向 其 中 一 种 的 理由 ， 所 以 工作 在 不 同 处 理 器 上 的 
不 同 公司 的 不 同 团 队 的 选择 可 能 会 不 同 。 

问题 出 在 当 被 写 至 磁盘 上 的 数据 或 者 由 一 台 计 算 机 通过 网 络 传输 的 数据 会 被 另外 一 台 计 算 
机 读 取 的 时 候 。 磁 盘 和 网 络 一 次 只 传送 一 字 节 ， 而 不 是 整个 int 值 。 所 以 ， 这 关系 到 哪 一 
端 首先 被 存储 或 发 送 。 如 果 发 送 数据 的 计算 机 与 接收 数据 的 计算 机 在 这 一 点 上 不 一 致 ， 那 
么 发 送 的 0x01234567 则 会 被 接收 为 0x67452301， 导 致 int 值 发 生 了 改变 。 


字 节 序 (endian-ness) 只 是 C++ 不 能 指定 int 中 位 的 存储 方式 或 是 设置 联合 体 中 的 一 个 字 
没 会 如 何 影响 其 他 字段 的 原因 之 一 。 所 编写 的 程序 可 以 工作 于 一 类 计算 机 上 ， 却 在 另 一 类 
计算 机 上 月 涡 ， 原 因 也 在 于 字 节 序 。 


2.2.5 内存 容量 是 有 限 的 


实际 上 ， 计 算 机 中 的 内 存 容量 并 非 是 无 限 的 。 为 了 维持 内 存 容 量 无 限 的 假象 ， 操 作 系 统 可 
以 如 同 使 用 高 速 缓存 一 样 使 用 物理 内 存 ， 将 没有 放 入 物理 内 存 中 的 数据 作为 文件 存储 在 磁 
盘 上 。 这 种 机 制 被 称 为 虚拟 内 存 (virtual memory)。 虚 拟 内 存 制 造 出 了 拥有 充足 的 物理 内 
存 的 假象 。 


不 过 ， 从 磁盘 上 获取 一 个 内 存 块 需要 花费 数 十 写 秒 ， 对 现代 计算 机 来 说 ， 这 几乎 是 一 个 
恒定 值 。 

想 让 高 速 缓存 更 快 是 非常 昂贵 的 。 一 台 台 式 计算 机 或 是 手机 中 可 能 会 有 数 吉 字 市 的 主 内 存 ， 
上 昌 是 只 有 几 百 万 字 市 的 高 速 缓 在。 通常 ， 程 序 和 它们 的 数据 不 会 被 存储 在 高 速 缓存 中 。 
高 速 缓存 和 虚拟 内 存 带 来 的 一 个 影响 是 ， 由 于 高 速 缓存 的 存在 ， 在 进行 性 能 测试 时 ， 一 个 
国 数 运行 于 整个 程序 的 上 下 文中 时 的 执行 速度 可 能 是 运行 于 测试 套件 中 时 的 万 分 之 一 。 妆 
运行 于 整个 程序 的 上 下 文中 时 ， 函 数 和 它 的 数据 不 太 可 能 存储 至 缓存 中 ， 而 在 测试 套件 的 
上 下 文中 ， 它 们 则 通常 会 被 缓存 起 来 。 这 个 影响 放大 了 减少 内 存 或 磁盘 使 用 量 带 来 的 优化 
收益 ， 而 减 小 代码 体积 的 优化 收益 则 没有 任何 变化 。 

第 二 个 影响 则 是 ， 如 果 一 个 大 程序 访问 许多 离散 的 内 存 地 址 ， 那 么 可 能 没有 足够 的 高 速 组 
存 来 保存 程序 刚刚 使 用 的 数据 。 这 会 导致 一 种 性 能 衰退 ， 称 为 页 抖动 (page thrashing)。 当 
在 微 处 理 喜 内 部 的 高 速 缓存 中 发 生 页 抖动 时 ， 性 能 会 降低 ， 当 在 操作 系统 的 虚拟 缓存 文件 
中 发 生 页 抖动 时 ， 人 性 能 会 下 降 为 原来 的 1000。 过 去 ， 计 算 机 的 物理 内 存 很 少 ， 页 抖动 更 
加 普遍 。 不 过 ， 如 今 ， 这 个 问题 仍然 会 发 生 。 
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2.2.6 ”指令 执行 缓慢 

冉 入 在 咖啡 机 和 微波 炉 中 的 简单 的 微 处 理 器 被 设计 为 执行 指令 的 速度 与 从 内 存 中 获取 指令 
一 样 快 。 桌 面 级 微 处 理 器 则 有 额外 的 资源 并 发 地 处 理 指令 ， 因 此 它们 执行 指令 的 速度 可 以 
比 从 主 内 存 获 取 指 令 快 很 多 倍 ， 多 数 时候 都 需要 高 速 缓存 去 “ 咀 饱 ”它们 的 执行 单元 。 对 
优化 而 言 ， 这 意味 着 内 存 访问 决定 了 计算 开销 。 

如 果 没 有 其 他 东西 “妨碍 ”， 现 代 桌 面 级 处 理 器 可 以 以 惊人 的 速率 执行 指令 。 它 们 每 几 百 
皮 秒 (1 皮 秒 是 10* 秒 ， 一段 非常 非常 短 的 时 间 ) 就 可 以 完成 一 次 指令 处 理 。 但 这 并 不 意 
味 着 每 条 指令 只 需要 皮 秒 数量 级 的 时 间 即 可 执行 完毕 。 处 理 器 中 包含 一 条 指令 “流水 线 ”， 
它 支持 并 发 执行 指令 。 指 令 在 流水 线 中 被 解码 、 获 取 参 数 、 执 行 计算 ， 最 后 保存 处 理 结 
果 。 处 理 器 的 性 能 越 强大 ， 这 条 流水 线 就 越 复 厅 。 它 会 将 指令 分 解 为 若干 阶段 ， 这 样 就 可 
以 并 发 地 处 理 更 多 的 指令 。 

如 果 指 令 B 需要 指令 4 的 计算 结果 ， 那 么 在 计算 出 指令 4 的 处 理 结果 前 是 无 法 执行 指令 B 
的 计算 的 。 这 会 导致 在 指令 执行 过 程 中 发 生 流水 线 停 滞 (pipeline stall) 一 一 一 个 短暂 的 暂 
停 ， 因 为 两 条 指令 无 法 完全 同时 执行 。 如 果 指 令 4 需要 从 内 存 中 获取 值 ， 然 后 进行 运算 得 
到 线程 B 所 需 的 值 ， 那 么 流水 线 停 浪 时 间 会 特别 长 。 流 水 线 停 神 会 拖累 高 性 能 微 处 理 器 ， 
让 它 变 得 与 烤 面 包机 中 的 处 理 器 的 速度 一 样 慢 。 


2.2.7 计算 机 难以 作 决 定 


另 一 个 会 导致 流水 线 停 带 的 原因 是 计算 机 需要 作 决 定 。 大 多 数 情 况 下 ， 在 执行 完 一 条 指令 
后 ， 处 理 器 都 会 获取 下 一 个 内 存 地 址 中 的 指令 继续 执行 。 这 时 ， 多 数 情况 下 ， 下 一 条 指令 
已 经 被 保存 在 高 速 缓 存 中 了 。 一 旦 流水 线 的 第 一 道 工序 变 为 可 用 状态 ， 指 令 就 可 以 连续 地 
进入 到 流水 线 中 。 
但 是 控制 转 义 指令 略 有 不 同 。 跳 转 指令 或 跳 转 子 例 程 指令 会 将 执行 地 址 变 为 一 个 新 的 值 。 
在 执行 跳 转 指令 一 段 时 间 后 ， 执 行 地 址 才 会 被 更 新 。 在 这 之 前 是 无 法 从 内 存 中 读 取 “下 
条 ”指令 并 将 其 放 和 到 流水 线 中 的 。 新 的 执行 地 址 中 的 内 存 字 不 太 可 能 会 存储 在 高 速 
缓存 中 。 在 更 新 执行 地 址 和 加 载 新 的 “下 一 条 ”指令 到 流水 线 中 的 过 程 中 ， 会 发 生 流 水 
线 停 请 。 
在 执行 了 一 个 条 件 分 支 指令 后 ， 执 行 可 能 会 走向 两 个 方向 : 下 一 条 指令 或 者 分 支 目 标 地 址 
中 的 指令 。 最 终 会 走向 哪个 方向 取决 于 之 前 的 某 些 计算 的 结果 。 这 时 ， 流 水 线 会 发 生 停 
沸 ， 直 至 与 这 些 计算 结果 相关 的 全 部 指令 都 执行 完毕 ， 而 且 还 会 继续 停 请 一 段 时 间 ， 直 至 
决定 一 下 条 指令 的 地 址 并 取得 下 一 条 指令 为 止 。 
对 性 能 优化 而 言 ， 这 一 项 的 意义 在 于 计算 比 做 决定 更 快 。 


2.2.8 程序 执行 中 的 多 个 流 

任何 运行 于 现代 操作 系统 中 的 程序 都 会 与 同时 运行 的 其 他 程序 、 检 查 磁盘 或 者 新 的 Java 和 
Flash 版 本 的 定期 维护 进程 以 及 控制 网 络 接 口 、 磁 盘 、 声 音 设 备 、 加 速 器 、 温 度 计 和 其 他 
外 设 的 操作 系统 的 各 个 部 分 共享 计算 机 。 每 个 程序 都 会 与 其 他 程序 竞争 计算 机 资源 。 
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程序 不 会 过 多 在 意 这 些 事情 。 它 只 是 会 运行 得 稍微 慢 一 点 而 已 。 不 过 有 一 个 例外 ， 那 就 是 
当 许多 程序 一 齐 开始 运行 ， 互 相 竞 争 内 存 和 磁盘 时 。 为 了 性 能 调 优 ， 如 果 一 个 程序 必须 在 
启动 时 执行 或 是 在 负载 高 峰 期 时 执行 ， 那 么 在 测量 性 能 时 也 必须 带 上 负载 。 


在 2016 年 早期 ， 台 式 计 算 机 有 多 达 16 个 处 理 器 核心 。 手 机 和 平板 电脑 中 的 微 处 理 器 也 有 
多 达 8 个 核心 。 但 是 ， 快 速 地 浏览 下 Windows 的 任务 管理 器 、Linux 的 进程 状态 输出 结果 
和 Android 的 任务 列表 就 可 以 发 现 ， 微 处 理 器 所 执行 的 软件 进程 远 比 这 个 数量 大 ， 而 且 绝 
大 多 数 进程 都 有 多 个 线程 在 执行 。 操 作 系 统 会 执行 一 个 线程 一 段 很 短 的 时 间 ， 然 后 将 上 下 
文 切换 至 其 他 线程 或 进程 。 对 程序 而 言 ， 就 仿佛 执行 一 条 语句 花费 了 一 纳 秒 ， 但 执行 下 一 
条 语句 花费 了 60 毫秒 。 


切换 上 下 文 究 况 是 什么 意思 呢 ? 如 果 操作 系统 正在 将 一 个 线程 切换 至 同一 个 程序 的 另外 一 
个 线程 ， 这 表示 要 为 即将 暂停 的 线程 保存 处 理 器 中 的 寄存 器 ， 然 后 为 即将 被 继续 执行 的 线 
程 加 载 之 前 保存 过 的 寄存 器 。 现 代 处 理 器 中 的 寄存 器 包含 数 百 字 节 的 数据 。 当 新 线程 继续 
执行 时 ， 它 的 数据 可 能 并 不 在 高 速 缓存 中 ， 所 以 当 加 载 新 的 上 下 文 到 高 速 缓存 中 时 ， 会 

一 个 缓慢 的 初始 化 阶段 。 因 此 ， 切 换 线程 上 下 文 的 成 本 很 高 。 

当 操作 系统 从 一 个 程序 切换 至 另外 一 个 程序 时 ， 这 个 过 程 的 开销 会 更 加 昂贵 。 所 有 脏 的 高 
速 缓存 页 面 (页 面 被 人 了 数据 ， 但 还 没有 反映 到 主 内 存 中 ) 都 必须 被 刷新 至 物理 内 存 中 。 
所 有 的 处 理 器 寄存 器 都 需要 被 保存 。 然 后 ， 内 存 管理 器 中 的 “物理 地 址 到 虚拟 地 址 ”的 内 
存 页 寄存 器 也 需要 被 保存 。 接 着 ， 新 线程 的 “物理 地 址 到 虚拟 地 址 ”的 内 存 页 寄存 器 和 处 
理 器 寄存 器 被 载 人 。 最 后 就 可 以 继续 执行 了 。 但 是 这 时 高 速 缓存 是 空 的 ， 因 此 在 高 速 缓存 
被 填充 满 之 前 ， 还 有 一 段 缓慢 且 需 要 激烈 地 竞争 内 存 的 初始 化 阶段 。 


当 一 个 程序 必须 等 某 个 事件 发 生 时 ， 它 其 至 可 能 会 在 这 个 事件 发 生 后 继续 等 待 ， 直 至 操作 
系统 让 处 理 器 为 继续 执行 程序 做 好 准备 。 这 会 导致 当 程序 运行 于 其 他 程序 的 上 下 文中 ， 竞 
争 计算 机 资源 时 ， 程 序 的 运行 时 间 变 得 更 长 和 更 加 难以 确定 。 


为 了 能 够 达到 更 好 的 性 能 ， 一 个 多 核 处 理 器 的 执行 单元 及 相关 的 高 速 缓存 ， 与 其 他 的 执行 
单元 及 相关 的 高 速 缓存 都 是 或 多 或 少 互相 独立 的 。 不 过 ， 所 有 的 执行 单元 都 共享 同样 的 主 
内 存 。 执 行 单元 必须 竞争 使 用 那些 将 可 以 它们 链接 至 主 内 存 的 硬件 ， 使 得 在 拥有 多 个 执行 
单元 的 计算 机 中 ， 冯 … 诺 依 曼 瓶 须 的 限制 变 得 更 加 明显 。 

当 执行 单元 写 值 时 ， 这 个 值 会 首先 进入 高 速 缓存 内 存 。 不 过 最 终 ， 这 个 值 将 被 写 人 至 主 内 
存 中 ， 这 样 其 他 所 有 的 执行 单元 就 都 可 以 看 见 这 个 值 了 。 但 是 ， 这 些 执行 单元 在 访问 主 内 
存 时 存在 着 竞争 ， 所 以 可 能 在 执行 单元 改变 了 一 个 值 ， 然 后 又 执行 几 百 个 指令 后 ， 主 内 存 
中 的 值 才 会 被 更 新 。 

因此 ， 如 果 一 台 计算 机 有 多 个 执行 单元 ， 那 么 一 个 执行 单元 可 能 需要 在 很 长 一 段 时 间 后 才 
能 看 见 另 一 个 执行 单元 所 写 的 数据 被 反映 至 主 内 存 中 ， 而 且 主 内 存 发 生 改 变 的 顺序 可 能 与 
章 令 的 执行 顺序 不 一 样 。 受 到 不 可 预测 的 时 间 因 素 的 干扰 ， 执 行 单元 看 到 的 共享 内 存 字 中 
的 值 可 能 是 旧 的 ， 也 可 能 是 被 更 新 后 的 值 。 这 时 ， 必 须 使 用 特殊 的 同步 指令 来 确保 运行 于 
不 同 执行 单元 间 的 线程 看 到 的 内 存 中 的 值 是 一 致 的 。 对 优化 而 言 ， 这 意味 着 访问 线程 间 的 
共享 数据 比 访问 非 共享 数据 要 慢 得 多 。 
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2.2.9 调用 操作 系统 的 开销 是 昂贵 的 

除了 最 小 的 处 理 器 外 ， 其 他 处 理 器 都 有 硬件 可 以 确保 程序 之 间 是 互相 隔离 的 。 这 样 ， 程 序 
4 不 能 读 写 和 执行 属于 程序 B 的 物理 内 存 。 这 个 硬件 还 会 保护 操作 系统 内 核 不 会 被 程序 覆 
写 。 男 一 方面 ， 操 作 系 统 内 核 需 要 能 够 访问 所 有 程序 的 内 存 ， 这 样 程序 就 可 以 通过 系统 调 
用 访问 操作 系统 。 有 些 操 作 系 统 还 允许 程序 发 送 访问 共享 内 存 的 请 求 。 许 多 系统 调用 的 发 
生 方 式 和 共享 内 存 的 分 布 方式 是 多 样 和 神秘 的 。 对 优化 而 言 ， 这 意味 着 系统 调用 的 开销 是 
昂贵 的 ， 是 单线 程 程序 中 的 函数 调用 开销 的 数 百 倍 。 


2.3 C++ 也 会 说 谎 


C++ 对 用 户 所 撒 的 最 大 的 谎言 就 是 运行 它 的 计算 机 的 结构 是 简单 的 、 稳 定 的 。 为 了 假装 相 
信 这 条 谎言 ，C++ 让 开发 人 员 不 用 了 解 每 种 微 处 理 器 设备 的 细 市 即 可 编程 ， 如 同 正在 使 用 
真实 得 近乎 残酷 的 汇编 语言 编程 一 样 。 


2.3.1 并 非 所 有 语句 的 性 能 开销 都 相同 


在 Kernighan 和 Ritchie 的 《C 程序 设计 语言 》 一 书 中 ， 所 有 语句 的 性 能 开销 都 一 样 。 一 个 
国 数 调用 可 能 包含 任意 复杂 的 计算 。 但 一 个 赋值 语句 通常 只 是 将 保存 在 一 个 寄存 器 中 的 内 
容 变 为 另外 一 个 内 容 保存 在 另 一 个 寄存 器 中 。 因 此 ， 以 下 赋值 语句 


int 1,j; 











































































































1 = j; 


会 从 j 中 复制 2 或 4 字 节 到 1 中 。 所 声明 的 变量 类 型 可 能 是 int、flLoat 或 struct big 
struct *， 但 是 赋值 语句 所 做 的 工作 量 是 一 样 的 。 


不 过 现在 ， 这 已 经 不 再 是 正确 的 了 。 在 C++ 中， 将 一 个 int 赋值 给 另外 一 个 int 的 工作 量 
与 相应 的 C 语言 赋值 语句 的 工作 量 是 完全 一 样 的 。 但 是 ， 一 个 赋值 语句 ， 如 BigInstance 
i = Otherobject; 会 复制 整个 对 象 的 结构 。 更 值得 注意 的 是 ， 这 类 赋值 语句 会 调用 
BigInstance 的 构造 函数 ， 而 其 中 可 能 隐藏 了 不 确定 的 复杂 性 。 当 一 个 表达 式 被 传递 给 一 
个 函数 的 形 参 时 ， 也 会 调用 构造 函数 。 当 函数 返回 值 时 也 是 一 样 的 。 而 且 ， 由 于 算数 操作 
符 和 比较 操作 符 也 可 以 被 重 载 ， 所 以 A=B*C; 可 能 是 n 维和 矩阵 相 乘 ，if (x<y)... 可 能 比较 
的 是 具有 任意 复杂 度 的 有 向 图 中 的 两 条 路 径 。 对 优化 而 言 ， 这 一 点 的 意义 是 某 些 语句 隐藏 
了 大 量 的 计算 ， 但 从 这 些 语句 的 外 表 上 看 不 出 它 的 性 能 开销 会 有 多 大 。 


先 学 习 C++ 的 开发 人 员 不 会 对 此 感到 惊讶 。 但 是 对 那些 先 学 习 C 的 开发 人 员 来 说 ， 他 们 
的 直觉 可 能 会 将 他 们 引 向 灾难 性 的 歧途 。 

2.3.2 ”语句 并 非 按 顺序 执行 

C++ 程序 表现 得 仿佛 它们 是 按 顺 序 执行 的 ， 完 全 遵守 了 C++ 流程 控制 语句 的 控制 。 上 和 句 话 
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中 的 含糊 其 辞 的 “仿佛 ” 正 是 许多 编译 器 进行 优化 的 基础 ， 也 是 现代 计算 机 硬件 的 许多 技 
巧 的 基础 。 


当然 ， 在 底层 ， 编 译 器 能 够 而 且 有 时 也 确实 会 对 语句 进行 重新 排序 以 改善 性 能 。 但 是 编译 
器 知道 在 测试 一 个 变量 或 是 将 其 赋值 给 另外 一 个 变量 之 前 ， 必 须 先 确定 它 包含 了 所 有 的 最 
新 计算 结果 。 现 代 处 理 器 也 可 能 会 选择 乱 序 执行 指令 ， 不 过 它们 包含 了 可 以 确保 在 随后 读 
取 同 一 个 内 存 地 址 之 前 ， 一 定 会 先 向 该 地 址 写 入 值 的 逻辑 。 甚 至 微 处 理 器 的 内 存 控制 逻辑 
可 能 会 选择 延迟 写 人 内 存 以 优化 内 存 总 线 的 使 用 。 但 是 内 存 控制 器 知道 哪 次 写 值 正 在 从 执 
行 单 元 穿越 高 速 缓存 飞 往 主 内 存 的 “航班 ”中 ， 而 且 确 保 如 果 随 后 读 取 同 一 个 地 址 时 会 使 
用 这 个 “航班 ”中 的 值 。 

并 发 会 让 情况 变 得 复杂 。C++ 程序 在 编译 时 不 知道 是 否 会 有 其 他 线程 并 发 运行 。C++ 编译 
器 不 知道 哪个 变量 一 一 如 果 有 的 话 一 一 会 在 线程 间 共 享 。 当 程序 中 包含 共享 数据 的 并 发 线 
程 时 ， 编 译 器 对 语句 的 重 排 序 和 延迟 写 入 主 内 存 会 导致 计算 结果 与 按 顺 序 执行 语句 的 计算 
结果 不 同 。 开 发 人 员 必 须 向 多 线程 程序 中 显 式 地 加 入 同步 代码 来 确保 可 预测 的 行为 的 一 致 
性 。 当 并 发 线程 共享 数据 时 ， 同 步 代码 降低 了 并 发 量 。 


2.4 ”小 结 


。 在 处 理 嚣 中， 访问 内 存 的 性 能 开销 远 比 其 他 操作 的 性 能 开销 大 。 

。 非 对 齐 访 问 所 需 的 时 间 是 所 有 字 方 都 在 同一 个 字 中 时 的 两 倍 。 

。 访问 频繁 使 用 的 内 存 地 址 的 速度 比 访问 非 频繁 使 用 的 内 存 地 址 的 速度 快 。 

。 访问 相 邻 地 址 的 内 存 的 速度 比 访问 互相 远 隔 的 地 址 的 内 存 快 。 

。 由 于 高 速 缓存 的 存在 ， 一 个 国 数 运行 于 整个 程序 的 上 下 文中 时 的 执行 速度 可 能 比 运 行 于 
测试 套件 中 时 更 慢 。 

。 访问 线程 间 共 享 的 数据 比 访问 非 共 享 的 数据 要 慢 很 多 。 

。 计算 比 做 决定 快 。 

。 每 个 程序 都 会 与 其 他 程序 竞争 计算 机 资源 。 

。 如 果 一 个 程序 必须 在 启动 时 执行 或 是 在 负载 高 峰 期 时 执行 ， 那 么 在 测量 性 能 时 必须 加 载 
负载 。 

。 每 一 次 赋值 、 函 数 参数 的 初始 化 和 函数 返回 值 都 会 调用 一 次 构造 函数 ， 这 个 函数 可 能 隐 
藏 了 大 量 的 未 知 代码 。 

。 有 些 语句 隐藏 了 大 量 的 计算 。 从 语句 的 外 表 上 看 不 出 语句 的 性 能 开销 会 有 多 大 。 

。 当 并 发 线程 共享 数据 时 ， 同 步 代码 降低 了 并 发 量 。 
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第 3 章 


测量 性 能 





测量 可 测量 之 物 ， 将 不 可 测量 之 物 变 为 可 测量 。 





伽利略 . 伽 利 雷 (1564 一 1642) 


测量 和 实验 是 所 有 改善 程序 性 能 尝试 的 基础 。 本 章 将 介绍 两 种 测量 性 能 的 工具 软件 : 分 析 
器 和 计时 器 软件 。 我 将 讨论 如 何 设计 性 能 测量 实验 ， 使 得 测量 结果 更 有 指导 意义 ， 而 不 古 
误导 我 们 。 

最 基本 和 最 频繁 地 执行 的 软件 性 能 测量 会 告诉 我 们 “需要 多 长 时 间 ”。 执 行 函数 需要 多 长 
时 间 ? 从 磁盘 读 取 配 置 文件 需要 多 长 时 间 ? 启动 和 退出 程序 需要 多 长 时 间 ? 

这 些 测 量 问 题 的 解答 方法 有 时 简单 得 令 人 觉得 可 笑 。 牛 顿 通过 用 物体 掉 落 至 地 面 的 时 间 除 
以 他 的 心跳 速度 测量 出 了 重力 常数 '。 我 相信 每 位 开发 人 员 都 有 通过 大 声 数 数 进行 计时 的 经 
历 。 在 美国 ,我 们 通过 喊 “one-Mississippi, two-Mississippi, three-Mississippi...”“ 来 得 到 比较 
精确 的 秒 数 。 带 有 秒表 功能 的 电子 手表 曾经 是 计算 机 极 客 的 必 备 之 物 ， 而 非 仅 仅 是 潮流 的 
象征 。 在 媒 入 式 开发 中 ,熟悉 硬件 的 开发 人 员 有 很 多 优秀 的 工具 可 以 使 用 ， 其 中 有 频率 计 
数 器 和 信号 示波器 等 甚至 可 以 精确 地 测量 极 短 例 程 的 时 间 的 工具 。 软 件 厂 商 也 会 出 售 专 业 
工具 ， 由 于 数量 太 多 ， 这 里 不 会 逐一 介绍 。 

本 章 将 主要 介绍 两 种 被 广泛 使 用 的 、 具 有 通用 性 且 价 格 低廉 的 工具 。 第 一 个 工具 是 编译 器 
厂商 通常 在 编译 器 中 都 会 提供 的 分 析 器 (profiler)。 分 析 器 会 生成 各 个 函数 在 程序 运行 过 
程 中 被 调用 的 累积 时 间 的 表格 报表 。 对 性 能 优化 而 言 ， 它 是 一 个 非常 关键 的 工具 ， 因 为 它 



































注 1: 根据 维基 百科 的 记载 牛顿 只 是 提出 了 重力 常数 ， 重 力 常数 是 在 71 年 后 通过 扭 秤 实验 ( 卡 文 迪 许 实验 ) 
被 测量 出 来 的 。 译 者 注 。 

注 2: 很 难 找到 这 种 计算 秒 数 方法 的 起 源 ， 不 过 大 部 分 人 认为 这 是 美国 人 在 童年 时 就 已 经 学 会 的 一 种 数秒 方 
法 ， 因 为 读 完 Mississippi 这 个 单词 刚好 大 约 需 要 一 秒 钟 时 间 。 一 一 译 者 注 
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会 列 出 程序 中 最 热点 的 函数 。 


第 二 个 工具 是 计时 器 软件 (software timer)。 开 发 人 员 可 以 自己 实现 这 个 工具 ， 就 像 绝地 武 
士 自 己 打造 他 们 的 光 剑 一 样 (请 原谅 我 在 这 里 引用 了 《星球 大 战 》 中 的 内 容 打 比喻 )。 如 
果 带 有 分 析 器 的 豪华 版 编译 器 太 过 吊 贵 ,或 是 编译 器 厂商 在 某 些 侯 入 式 平台 上 不 提供 分 析 
器 ， 开 发 人 员 依 然 可 以 通过 测量 长 时 间 运 行 的 活动 来 进行 性 能 实验 。 计 时 器 软件 还 可 以 用 
于 测量 不 受 计算 限制 的 任务 。 

第 三 个 工具 是 非常 古老 的 “实验 笔记 本 ,许多 开发 人 员 认 为 它 已 经 完全 过 时 了 。 但 是 实 
验 笔记 本 或 是 其 他 文本 文件 仍然 是 不 可 或 缺 的 优化 工具 。 


3.1 优化 思想 


在 开始 介绍 测量 和 实验 之 前 ， 我 想 谈 一 点 点 我 一 直 在 实践 的 、 也 是 我 想 在 本 书 中 教授 的 优 
化 哲学 。 


3.1.1 必须 测量 性 能 

人 的 感觉 对 于 检测 性 能 提高 了 多 少 来 说 是 不 够 精确 的 。 人 的 记忆 力 不 足 以 准确 地 回忆 起 以 
往 多 次 实验 的 结果 。 书 本 中 的 知识 可 能 会 误导 你 ， 使 你 相信 了 一 些 并 非 总 是 正确 的 事情 。 
当 判 断 是 否 应 当 对 某 段 代码 进行 优化 的 时 候 ， 开 发 人 员 的 直觉 往往 差 得 令 人 吃惊 。 他 们 
写 了 函数 ， 也 知道 这 个 函数 会 被 调用 ， 但 他 们 并 不 清楚 调用 频率 以 及 会 被 什么 代码 所 调 
。 于 是 ， 一段 低 效 的 代码 混入 了 核心 组 件 中 并 被 调用 了 无 数 次 。 经 验 也 可 能 会 欺骗 你 。 
程 语 言 、 编 译 器 、 库 和 处 理 器 都 在 不 断 地 发 展 。 之 前 曾经 肯定 是 热点 的 函数 可 能 会 变 得 
非常 高 效 ， 反 之 亦 然 。 只 有 测量 才能 告诉 你 到 底 是 在 优化 游戏 中 取胜 了 还 是 失败 了 。 
那些 具有 最 让 我 折服 的 优化 技巧 的 开发 人 员 都 会 系统 地 完成 他 们 的 优化 任务 : 

。 他 们 做 出 的 预测 都 是 可 测试 的 ， 而 且 他 们 会 记录 下 预测 ; 

。 他 们 保留 代码 变更 记录 ; 

。 他 们 使 用 可 以 使 用 的 最 优秀 的 工具 进行 测量 ， 

。 他 们 会 保留 实验 结果 的 详细 笔记 。 



























































浴 汝 沦 




















停 下 来 思 
请 回 过 头 来 再 次 阅读 上 节 中 的 内 容 。 其 中 包含 了 本 书 中 最 重要 的 建议 。 多 数 开发 人 员 
(包括 笔者 ) 部 会 想当然 地 ， 而 不 是 按照 以 上 方式 有 条 不 率 地 进行 优化 。 这 是 一 项 必须 
不 断 实践 的 技能 。 











3.1.2 ”优化 器 是 王牌 猎人 
我 说 起 飞 后 用 核弹 炸 掉 这 地 方 。 这 是 唯一 的 方法 。 
一 一 艾 伦 . 蔓 普 莉 ( 西 格 丽 。 维 弗 饰 演 ), 《异形 2》，1986 年 


优化 器 是 王牌 猎人 。 如 果 只 能 让 程序 的 运行 速度 提高 1% 是 不 值得 冒险 去 修改 代码 的 ， 因 
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为 修改 代码 可 能 会 引入 bug。 只 有 能 显著 地 提升 性 能 时 才 值 得 修改 代码 。 而 且 ， 这 19 的 
速度 提升 可 能 只 是 将 测量 套件 的 误差 当 作 了 性 能 改善 。 因 此 ， 我 们 必须 用 随机 抽样 统计 
和 置信 水 平 来 证 明 速度 的 提升 。 但 是 完全 没有 必要 为 了 这 么 一 点 点 性 能 提升 花费 这 么 大 气 
力 。 本 书 中 不 会 推荐 大 家 这 么 做 。 

当 性 能 提升 20% 的 时 候 ， 事 情 就 完全 不 同 了 。 它 会 消除 所 有 反对 方法 论 的 声音 。 本 书 中 昌 
然 没 有 太 多 统计 数字 ， 不 过 我 并 不 会 为 此 感到 抱歉 。 本 书 的 重点 是 帮助 开发 人 员 找到 这 样 
的 性 能 改善 点 : 其 显赫 的 效果 足以 战胜 任何 对 其 价值 的 质疑 。 这 些 性 能 改善 点 可 能 仍然 取 
决 于 操作 系统 和 编译 器 等 因素 ， 因 此 它们 可 能 会 在 其 他 操作 系统 上 或 是 其 他 时 间 点 没有 太 
好 的 效果 。 但 是 即使 开发 人 员 把 他 们 的 代码 移植 到 新 操作 系统 上 ， 这 些 修改 也 几乎 从 来 都 
不 会 反 过 来 降低 程序 性 能 。 





























3.1.3” ”90/10 规 则 

性 能 优化 的 基本 规则 是 90/10 规则 : 一 个 程序 花费 90% 的 时 间 执 行 其 中 10% 的 代码 。 这 
只 是 一 条 启发 性 的 规则 ， 并 非 自然 法 则 ， 但 对 于 我 们 的 思考 和 计划 却 具 有 指导 性 。 这 条 规 
则 有 时 也 被 称 为 80/20 规则 ， 但 思想 是 一 样 的 。 直 观 地 说 ，90/10 规则 表示 某 些 代码 块 是 会 





被 频繁 地 执行 的 热点 (hot spot) ， 而 其 他 代码 则 几乎 不 会 被 执行 。 这 些 热点 就 是 我 们 要 进 
行 性 能 优化 的 对 象 。 
优化 战争 故事 


我 是 在 作为 专业 开发 人 员 研 发 一 种 叫 作 9010A 的 带 键 盘 的 谋 入 式 设备 (图 3-1) 的 项 
目 中 初 识 90/10 规则 的 。 





图 3-1: Fluke 9010A (英国 计算 机 历史 博物 馆 ) 


程序 中 有 个 函数 会 轮 询 键盘 ， 查 看 用 户 是 否 按 下 了 STOP 键 。 这 个 函数 会 被 每 个 例 程 
频繁 地 执行 。 手 动 优 化 C 编译 器 输出 的 这 个 函数 的 Z80 汇编 代码 (耗费 了 45 分 钟 ) 
将 整体 吞吐 量 提高 了 7%， 对 这 台 设 备 来 说 ， 非 常 不 错 了 。 











一 般 情况 下 ， 这 是 一 条 典型 的 性 能 优化 经 验 。 在 优化 过 程 的 初期 ， 大 量 的 运行 时 间 孝 
集中 消耗 在 程序 中 的 某 个 位 置 。 这 个 位 置 也 非常 明显 : 在 每 个 循环 的 每 次 壬 代 中 部 要 
重复 进行 的 处 理 ， 就 像 每 天 的 家 务 劳动 一 样 。 想 要 优化 这 些 代码 需要 做 出 一 项 痛苦 的 
选择 一 一 用 汇编 语言 重 写 这 些 C 语言 代码 。 但 是 由 于 使 用 汇编 语言 的 代码 范围 极其 有 
限 ， 选 择 使 用 汇编 语言 降低 了 需要 承受 的 风险 。 


当 这 段 代 码 被 频繁 执行 时 ， 这 条 经 验 同 样 很 典型 。 当 我 们 改善 了 这 段 代码 后 ， 另 一 段 
代码 成 为 了 最 频繁 地 被 执行 的 代码 一 不 过 它 对 整体 运行 时 间 的 影响 已 经 小 多 了 。 它 
实在 是 太 小 了 ， 以 至 于 我 们 在 进行 了 这 一 处 改动 后 就 停止 了 性 能 优化 。 我 们 其 至 找 不 
到 改动 后 可 以 将 程序 执行 速度 提高 1% 的 地 方 了 。 




















90110 规则 的 一 个 结论 是 ， 优 化 程序 中 的 所 有 例 程 并 没有 太 大 帮助 。 优 化 一 小 部 分 代码 事 
实 上 已 经 足够 提供 你 所 想 要 的 性 能 提升 了 。 识 别 出 10% 的 热点 代码 是 值得 花费 时 间 的 ， 但 
靠 猜想 选择 优化 哪些 代码 可 能 只 是 浪费 时 间 。 
这 里 我 想 再 一 次 引用 第 1 章 中 曾经 引用 过 的 高 德 纳 的 一 名 名言 。 不 过 ， 此 处 是 那 句 名言 一 
个 较 长 的 版 本 : 
程序 员 浪 费 了 太 多 的 时 间 去 思考 和 担忧 程序 中 那些 非 关 键 部 分 的 速度 ， 而 且 考 虑 
到 调试 和 维护 ， 这 些 为 优化 而 进行 的 修改 实际 上 是 有 很 大 负面 影响 的 。 我 们 应 当 
忘记 小 的 性 能 改善 ，979%6 的 情况 下 ， 过 早 优化 都 是 万 恶 之 源 。 
一 一 高 德 纳 , “使 用 goto 语句 进行 结构 化 编程 ”, ACM Computing Surveys 6 
(Dec 1974): 268. CiteSeerX: 10.1.1.103.6084 (http://citeseerx.ist.psu.edu/ 
viewdoc/summary?doi=10.1.1.103.6084) 


正如 有 些 人 所 建议 的 那样 ， 高 德 纳 博士 也 并 非 警告 我 们 所 有 的 优化 都 是 罪恶 的 。 他 只 是 说 
浪费 时 间 去 优化 那 非 关键 的 90% 的 程序 是 罪恶 的 。 很 明显 ， 他 也 意识 到 了 90/10 规则 。 


3.1.4” 阿 姆 达尔 定律 


阿 姆 达 和 尔 定律 是 由 计算 机 工程 先锋 基因 阿 姆 达尔 (Gene Amdahl) 提出 并 用 他 的 名 字 命名 
的 ， 它 定义 了 优化 一 部 分 代码 对 整体 性 能 有 多 大 改善 。 阿 姆 达尔 定律 有 多 种 表达 方式 ， 不 
过 就 优化 而 言 ， 可 以 表示 为 下 面 的 等 式 : 





















































1 
9 = 一 一 一 一 
P 
I 
其 中 5 是 因 优化 而 导致 程序 整体 性 能 提升 的 比率 ，P 是 被 优化 部 分 的 运行 时 间 占 原来 程序 
整体 运行 时 间 的 比例 ，s 是 被 优化 部 分 P 的 性 能 改善 的 比率 。 
例如 ,假设 一 个 程序 的 运行 时 间 是 100 秒 。 通 过 分 析 (请 参见 3.3 市 ) 发 现 程序 花费 了 80 
秒 多 次 调用 函数 f。 现 在 假设 修改 f 使 其 运行 速度 提升 了 30%， 那 么 这 对 程序 整体 运行 时 
间 有 多 大 改善 呢 ? 














P 了 是 函数 f 的 运行 时 间 占 原来 程序 整体 运行 时 间 的 比例 ， 即 0.8;5; 是 被 优化 的 部 分 P 了 的 
性 能 改善 的 比率 ， 即 1.3。 将 它们 代入 到 阿 姆 达尔 定律 的 公式 中 : 
1 1 


Sr 二 三 = 1.22 
(1 — 0.8)+ 0.8 0.2 + 0.62 


1.3 

也 就 是 说 ， 将 这 个 函数 的 性 能 提升 30% 会 将 程序 整体 运行 时 间 缩 短 22%。 在 这 个 例子 中 ， 
阿 姆 达尔 定律 证 明了 90/10 规则 ， 而 且 通 过 这 个 例子 向 我 们 展示 了 ， 对 10% 的 热点 代码 进 
行 适当 的 优化 ， 就 可 以 带 来 如 此 大 的 性 能 提升 。 

下 面 我 们 再 来 看 一 个 例子 。 我 们 还 是 假设 一 个 程序 的 运行 时 间 是 100 秒 。 通 过 分 析 ， 你 发 
现 有 一 个 国 数 9 的 运行 时 间 是 10 秒 。 现 在 假设 你 修改 了 国 数 9， 将 它 的 运行 速度 提高 了 
100 倍 。 那 么 这 对 程序 整体 性 能 的 提升 有 多 大 呢 ? 

P 了 是 函数 g 的 运行 时 间 占 原来 程序 整体 运行 时 间 的 比例 ， 即 0.1;， 是 100。 将 它们 代入 到 
阿 姆 达 尔 定律 的 公式 中 : 
































专 1 司 1 二 
ST -0D+ Ol = 09+0007 = 11! 
: 100 


在 这 个 例子 中 阿 姆 达尔 定律 是 具有 警示 性 的 。 即 使 有 异常 优秀 的 编码 能 力 或 是 黑 科 技 将 函 
数 g 的 运行 时 间 缩 短 为 0， 它 仍然 是 那 并 不 重要 的 90% 代码 中 的 一 部 分 。 将 性 能 提升 的 比 
率 精确 到 两 个 小 数位 后 ， 对 程序 整体 性 能 的 提升 依然 只 有 11%。 阿 姆 达尔 定律 告诉 我 们 ， 
如 果 被 优化 的 代码 在 程序 整体 运行 时 间 中 所 占 的 比率 不 大 ， 那 么 即使 对 它 的 优化 非常 成 功 
也 是 不 值得 的 。 阿 姆 达尔 定律 的 教训 是 ， 当 你 的 同事 兴 冲 冲 地 在 会 议 上 说 他 知道 如 何 将 一 
段 计算 处 理 的 速度 提高 10 倍 ， 这 并 不 一 定 意味 着 性 能 优化 工作 就 此 结束 了 。 


3.2 ”进行 实验 


开发 软件 在 某 种 意义 上 就 是 一 项 实验 。 你 想 让 程序 做 一 些 事情 ， 然 后 开始 编程 ， 最 后 观察 
程序 的 运行 结果 是 否 与 预想 的 一 样 。 性 能 调 优 则 是 更 有 正式 意义 的 实验 。 在 开始 性 能 调 优 
前 ， 必 须要 有 正确 的 代码 ， 即 在 某 种 意义 上 可 以 完成 我 们 所 期 待 的 处 理 的 代码 。 你 需要 擦 
亮 眼 睛 审视 这 些 代 码 ， 然 后 癌 自 己 :“ 为 什么 这 些 代 码 是 热点 ? ”为 什么 某 个 函数 与 程序 
中 的 上 百 个 函数 不 同 ， 出 现在 了 分 析 器 的 最 差 性 能 列表 中 的 最 前 面 ? 是 这 个 函数 浪费 了 很 
多 时 间 在 元 余 处 理 上 吗 ? 有 其 他 更 快 的 方法 进行 相同 的 计算 吗 ? 这 个 函数 使 用 了 紧缺 的 计 
算 机 资源 吗 ? 是 这 个 函数 自身 已 经 是 非常 快 了 ， 只 不 过 它 被 调用 了 大 多 次 ， 已 经 没有 优化 
的 余地 了 吗 ? 

你 对 于 “为 什么 这 些 代码 是 热点 ”这 个 问题 的 回答 构成 了 你 要 测试 的 假设 。 实 验 要 对 程序 
的 两 种 运行 时 间 进 行 测 量 ;: 一 种 是 修改 前 的 运行 时 间 ， 一 种 是 修改 后 的 运行 时 间 。 如 果 后 
者 比 前 者 短 ， 那 么 实验 验证 了 你 的 假设 。 

请 注意 这 里 的 用 词 。 实 验 并 不 需要 证 明 任 何事 情 。 修 改 后 的 代码 可 能 会 因为 某 些 原因 运行 
得 更 快 或 者 更 慢 ， 但 这 些 原 因 却 与 你 修改 的 部 分 没有 任何 关系 。 比 如 : 






















































































优秀 的 科学 家 是 怀疑 论 者 。 他 们 总 是 对 事物 持 有 怀疑 。 如 有 果 疫 有 出 现 所 期 待 的 实验 结果 ， 


当 你 在 测量 运行 时 间 时 ， 计 算 机 可 能 在 接收 邮件 或 是 检查 Java 是 否 有 版 本 更 新 ， 
在 你 重 编译 之 前 ， 一 位 同事 刚刚 答 入 了 一 个 性 能 改善 后 的 库 ; 
你 的 修改 可 能 运行 得 更 快 ， 但 是 处 理 逻 辑 却 是 不 正确 的 。 












































或 是 实验 结果 太 好 了 ， 不 像 是 对 的 ， 那 么 怀疑 论 者 会 再 进行 一 次 实验 或 者 质疑 她 的 假设 ， 
抑或 检查 是 否 有 bug。 

优秀 的 科学 家 会 接受 新 知识 ， 即 使 这 些 知 识 与 他 们 脑海 中 的 知识 相悖 。 我 在 编写 本 书 的 过 
程 中 学 到 了 一 些 出 乎 意料 的 优化 知识 。 本 书 的 技术 审核 者 也 从 本 书 中 学 到 了 知识 。 优 秀 的 
科学 家 从 不 会 停止 学 习 。 

















优化 战争 故事 
在 第 5 章 有 一 个 查找 关键 字 的 示例 邓 数 。 我 为 这 个 示例 函数 编写 了 几 个 不 同 的 版 本 。 
其 中 一 个 版 本 是 线性 查找 (linear search) ， 另 一 个 版 本 则 是 二 分 查找 (binary search ) 。 
当 测 量 这 两 个 函数 的 性 能 时 ， 我 发 现 线性 查找 的 速度 比 二 分 查找 快 几 个 百分点 。 这 让 
我 觉得 不 可 思议 。 二 分 查找 本 应 当 更 快 ， 但 是 测量 结果 却 不 是 这 样 的 。 


我 注意 到 有 人 在 互联 网 上 发 表 报 告 说 线性 查找 经 常会 更 快 ， 因 为 相 比 二 分 查找 ， 它 的 
缓存 局 部 性 (cache locality) 更 好 ， 而 且 确实 我 实现 的 线性 查找 应 当 具 有 非常 优秀 的 缓 
存 局 部 性 。 但 是 这 个 结果 却 与 我 的 经 验 以 及 我 从 受 人 苯 常 的 书本 上 学 到 的 有 关 查 找 算 
法 性 能 的 知识 相 违 背 。 


进行 了 更 深入 的 调查 后 我 发 现 ， 在 测试 时 所 使 用 的 测试 表格 中 只 有 几 个 单词 ， 而 且 要 
查找 的 关键 字 我 自己 都 能 从 表格 中 找到 。 如 果 一 个 表格 有 8 个 项 目 ， 那 么 线性 查找 平 
均 会 检查 其 中 半数 (4) 后 返回 结果 。 而 二 分 查找 每 次 被 调用 时 都 会 将 表格 一 分 为 二 
( 共 4 次 )， 然 后 才能 查找 到 关键 字 。 这 两 种 算法 对 小 的 关键 字 集 有 着 完全 相同 的 平均 
性 能 。 直 觉 告 诉 我 二 分 查找 总 是 比 线性 查找 更 快 ， 但 这 个 结果 告诉 我 我 错 了 。 


但 是 这 并 非 我 想 证 明 的 结果 。 所 以 我 扩大 了 测试 数据 表格 ， 想 着 这 个 表格 在 达到 某 
个 大 小 时 ， 一 定 会 出 现 二 分 查找 更 快 的 结果 。 另 外 ， 我 还 向 其 中 加 入 了 一 些 原本 不 
在 测试 表格 中 的 单词 。 可 是 测试 结果 依然 不 变 ， 线 性 查找 更 快 。 这 时 ， 我 不 得 不 将 
编写 这 份 示例 代码 的 任务 搁置 了 几 天 ， 但 是 这 个 结果 却 一 直 折 磨 着 我 。 

我 仍然 相信 二 分 查找 应 当 更 快 。 我 检查 了 两 种 查找 方式 的 单元 测试 代码 ， 最 终 发 现 线 
性 查找 在 进行 第 一 次 比较 后 总 是 返回 成 功 。 我 的 测试 用 例 检 查 了 是 否 返 回 了 非 零 值 ， 
而 不 是 检查 是 否 返回 了 正确 值 。 接 着 ， 我 断 愧 地 修改 了 线性 查找 算法 和 测试 用 例 。 现 
在 ， 实 验 结果 与 我 所 期 待 的 一 样 ， 二 分 查找 的 速度 更 快 了 。 


在 这 个 例子 中 ， 实 验 结 果 先 否定 然后 又 验证 了 我 的 假设 
我 的 假设 。 





整个 过 程 中 一 直 在 挑战 











3.2.1 记 实 验 笔 记 

优秀 的 优化 人 员 (如 同 所 有 优秀 的 科学 家 ) 都 会 关心 可 重复 性 。 这 时 实验 室 笔 记 本 就 可 以 
发 挥 作用 了 。 为 了 验证 猜想 ， 优 化 人 员 在 对 代码 进行 一 处 或 多 处 修改 后 ， 利 用 输入 数据 集 
对 代码 进行 性 能 测试 ， 而 测试 则 会 在 若干 毫秒 后 结束 。 在 与 下 次 运行 时 间 进 行 比较 前 一 直 
记 着 上 次 程序 的 运行 时 间 ， 这 事 儿 并 不 难 。 如 果 每 次 代码 改善 都 是 成 功 的 ， 用 脑袋 记 住 就 
足够 了 。 

不 过 ， 开 发 人 员 的 猜想 可 能 会 出 错 ， 这 将 导致 最 近 一 次 的 程序 运行 时 间 比 上 一 次 的 更 长 。 
这 时 ， 无 数 的 疑问 会 充斥 在 开发 人 员 的 脑 中 。 虽 然 5 号 测试 的 运行 时 间 比 4 号 长 ， 但 是 它 
比 3 号 短 吗 ? 在 进行 3 号 测试 时 修改 了 哪些 代码 ? 两 次 测试 间 的 速度 差异 是 由 其 他 因素 造 
成 的 ， 还 是 的 确 变 快 了 ? 


如 果 每 次 的 测试 运行 情况 都 被 记录 在 案 ， 那 么 就 可 以 快速 地 重复 实验 ， 回 答 上 述 问 题 就 会 
变 得 很 轻松 了 。 否 则 ， 开 发 人 员 必 须 回 过 头 去 重新 做 一 次 实验 来 获取 运行 时 间 一 一 前 提 是 
他 还 记得 应 该 修改 哪些 代码 或 是 撤销 哪些 修改 。 如 果 测 试 运行 很 简单 ， 开 发 人 员 的 记忆 力 
也 非常 好 ， 那 么 他 很 幸运 ， 只 需要 花费 一 点 时 间 即 可 重复 实验 。 但 是 也 有 可 能 没 那 么 幸 
运 ， 明 明 想 重复 实验 却 偏离 了 正确 的 前 进 道路 ， 或 是 写 无 意义 地 浪费 一 天 去 重复 实验 。 

每 当 我 给 出 这 条 建议 时 ， 总 会 有 人 说 :“ 我 不 需要 笔 和 纸 就 能 做 到 ! 我 可 以 写 一 段 Perl 脚 
本 去 修改 代码 版 本 管理 工具 的 命令 ， 让 它 帮忙 将 每 次 运行 的 测试 结果 和 所 修改 的 代码 一 起 
保存 起 来 。 如 果 我 将 测试 结果 保存 在 文件 中 …… 如 果 我 在 不 同 的 目录 下 做 测试 ……” 


我 并 不 想 妨 碍 开发 人 员 创 新 。 如 果 你 是 一 位 主动 吸收 最 佳 实践 的 高 级 开发 经 理 ， 那 么 尽管 
这 么 做 吧 。 不 过 我 想 说 的 是 ， 使 用 纸 和 笔记 录 是 一 种 很 稳健 、 容 易 使 用 而 且 有 着 千年 历史 
的 技术 。 即 使 在 开发 团队 替换 了 版 本 管理 工具 或 测试 套件 的 情况 下 ， 这 项 技术 仍然 可 用 。 
它 还 适用 于 开发 人 员 的 下 一 份 工 作 。 这 项 传统 的 解决 方案 仍然 可 以 节省 开发 人 员 的 时 间 。 


3.2.2 测量 基准 性 能 并 设 定 目标 

独立 开发 人 员 可 以 随意 地 、 友 代 地 进行 优化 ， 直 到 他 觉得 性 能 足够 好 了 为 止 。 不 过 工作 于 
团队 中 的 开发 人 员 需 要 满足 经 理 和 其 他 利益 相关 人 员 的 需求 。 优 化 工作 受 两 个 数字 主导 : 
优化 前 的 性 能 基准 测量 值 和 性 能 目标 值 。 测 量 性 能 基准 不 仅 对 于 衡量 每 次 独立 的 改善 是 否 
成 功 非常 重要 ， 而 且 对 于 向 其 他 利益 相关 人 员 就 优化 成 本 开销 做 出 解释 也 是 非常 重要 的 。 
而 优化 目标 值 之 所 以 重要 ， 是 因为 在 优化 过 程 中 优化 效果 会 逐渐 变 小 。 在 优化 过 程 的 最 初 
阶段 ， 树 上 总 是 有 些 容易 摘 取 的 挂 得 很 低 的 水 果 : 一 些 独 立 的 进程 或 是 想当然 地 编写 的 函 
数 ， 优 化 它们 后 可 以 使 性 能 提升 很 多 。 但 是 一 旦 实现 了 这 些 简 单 的 优化 目标 后 ， 下 一 轮 性 
能 提升 就 需要 付出 更 多 的 努力 。 

许多 团队 之 所 以 在 一 开始 没有 为 性 能 或 是 响应 性 设 定 目 标 ， 只 是 因为 他 们 并 不 习惯 这 么 
做 。 幸 运 的 是 ， 差 劲 的 性 能 往往 表现 得 非常 明显 (例如 用 户 界面 长 时 间 不 响应 、 托 管 服 
务 器 的 规模 没有 可 扩展 性 、 按 照 CPU 时 间 付 费 的 成 本 非常 高 等 )。 一 旦 团队 研究 下 性 能 问 
题 ， 那 么 目标 数字 很 容易 被 设 定 下 来 。 用 户 体验 (UX) 设计 的 一 个 学 科 分 支 专 门 研究 用 
户 如 何 看 待 等 待 时 间 。 下 面 是 一 份 常用 的 性 能 测试 项 目 清单 ， 你 可 以 从 为 这 些 项 目 设 定性 
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能 目标 开始 。 这 其 中 有 足够 多 的 与 用 户 体验 相关 的 数字 ， 可 以 让 你 意识 到 危险 性 。 
启动 时 间 
从 用 户 按 下 回 车 键 直 至 程序 进入 主 输入 处 理 循环 所 经 过 的 时 间 。 通 常 ， 开 发 人 员 可 以 通 
过 测量 程序 进入 matn() 函数 到 进入 主 循环 的 时 间 来 得 到 启动 时 间 ， 但 是 有 时 候 也 有 例 
外 。 为 程序 提供 认证 的 操作 系统 厂商 对 程序 在 计算 机 启动 时 或 某 个 用 户 登入 时 就 运行 有 
严格 的 要 求 。 例 如 ， 对 那些 寻求 认证 的 硬件 厂商 ， 微 软 会 要 求 Windows shell 必须 在 启 
动 后 10 秒 内 能 够 进入 它们 的 主 循环 。 这 限制 了 在 忙碌 的 启动 环境 中 ， 厂 商 可 以 预 载 和 
启动 的 其 他 程序 的 数量 。 为 此 ， 微 软 提供 了 专用 工具 来 帮助 硬件 厂商 测量 启动 时 间 。 
退出 时 间 
从 用 户 点 击 关闭 图 标 或 是 输入 退出 命令 直至 程序 实际 完全 退出 所 经 过 的 时 间 。 通 常 ， 开 
发 人 员 可 以 通过 测量 主 窗口 接收 到 关闭 命令 到 程序 退出 main() 的 时 间 来 得 到 退出 时 间 ， 
但 是 有 时 候 也 有 例外 。 退 出 时 间 也 包含 停止 所 有 的 线程 和 所 依赖 的 进程 所 需 的 时 间 。 为 
程序 提供 认证 的 操作 系统 厂商 对 程序 的 退出 时 间 有 严格 的 要 求 。 退 出 时 间 同 样 非常 重 
要 ， 因 为 重启 一 个 服务 或 是 长 时 间 运 行 的 程序 所 需 的 时 间 等 于 它 的 退出 时 间 加 上 它 的 启 
动 时 间 。 
响应 时 间 
执行 一 个 命令 的 平均 时 间或 最 长 时 间 。 对 于 网 站 来 说 ， 平 均 响应 时 间 和 最 长 响应 时 间 
都 会 影响 用 户 对 网 站 的 满意 度 。 响 应 时 间 可 以 粗略 地 以 10 的 震 为 单位 划分 为 以 下 几 
个 级 别 。 


低 于 0.1 秒 : 用 户 在 直接 控制 
如 果 响 应 时 间 低 于 0.1 秒 ， 用 户 会 感觉 他 们 在 直接 控制 用 户 界面 ， 他 们 的 操作 直接 
改变 了 用 户 界 面 。 这 是 用 户 开 始 拖 动 对 象 至 对 象 发 生 移 动 ， 或 是 用 户 点 击 输入 框 至 
输入 框 变 为 高 亮 之 间 的 最 小 延迟 。 任 何 高 于 这 个 值 的 延迟 都 会 让 用 户 觉得 他 们 发 送 
了 一 条 命令 让 计算 机 去 执行 。 

0.1 秒 至 1 秒 : 用 户 在 控制 命令 
如 果 响 应 时 间 在 0.1 秒 至 1 秒 之 间 ， 用 户 虽 然 仍然 会 觉得 他 们 处 于 和 擎 控 状 态 ， 但 是 
这 个 短暂 的 延迟 会 被 用 户 理解 为 计算 机 执行 了 一 条 命令 导致 UI 发 生 了 变化 。 用 户 可 
以 忍受 这 种 程度 的 延迟 ， 不 至 于 分 散 注 意 力 。 

1 秒 至 10 秒 : 计算 机 在 控制 
如 果 响 应 时 间 在 1 秒 至 10 秒 之 间 ， 用 户 会 觉得 他 们 在 执行 了 一 条 命令 后 失去 了 对 
计算 机 的 控制 ， 虽 然 这 时 候 计 算 机 仍然 在 处 理 命令 。 用 户 可 能 会 分 散 注意 力 ， 忘 记 
一 件 刚 才 发 生 的 事情 一 一 他 们 需要 完成 自己 的 任务 。10 秒 是 用 户 能 保持 注意 力 的 
最 长 时 间 。 如 果 他 们 多 次 遇 到 这 种 长 时 间 等 待 UI 发生 改变 的 情况 ， 用 户 满意 度 会 
急速 下 降 。 


高 于 10 秒 : 喝 杯 咖啡 休息 一 下 
如 果 响 应 时 间 高 于 10 秒 ， 用 户 会 觉得 他 们 有 足够 的 时 间 去 做 一 些 其 他 的 事情 。 如 
果 他 们 的 工作 需要 用 到 UI， 那 么 他 们 会 利用 等 待 计算 机 进行 计算 的 时 间 去 喝 一 杯 
咖啡 。 如 果 可 以 的 话 ， 他 们 甚至 会 关闭 程序 ， 然 后 去 其 他 地 方 找 找 满足 感 。 
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雅 各 布 " 尼尔森 (Jakob Nielsen) 就 用 户 体 验 中 的 响应 时 间 范 围 写 了 一 篇 非常 有 意思 的 
文章 (https://www.nngroup.com/articles/powers-of-10-time-scales-in-ux/)， 这 是 一 份 出 于 
好 奇 而 进行 的 学 术 研 究 。 

吞吐 量 
与 响应 时 间 相 对 。 通 常 ， 吞 吐 量 表述 为 在 一 定 的 测试 负载 下 ， 系 统 在 每 个 时 间 单 位 内 所 
执行 的 操作 的 平均 数 。 吞 吐 量 所 测量 的 东西 与 响应 时 间 相 同 ， 但 是 它 更 适合 于 评估 批 处 
理 程序 ， 如 数据 库 和 Web 服务 等 。 通 常 ， 这 个 数字 越 大 越 好 。 


有 时 ， 也 可 能 会 发 生 过 度 优 化 的 情况 。 例 如 ， 在 许多 情况 下 ， 用 户 认为 响应 时 间 小 于 0.1 
秒 就 是 一 瞬间 的 事 了 。 在 这 种 情况 下 ， 即 使 将 响应 时 间 从 0.1 秒 改善 为 了 1 毫秒 ， 也 不 会 
增加 任何 价值 ， 尽 管 响应 速度 提升 了 100 倍 。 


3.2.3 ”你 只 能 改善 你 能 够 测量 的 

优化 一 个 函数 、 子 系统 、 任 务 或 是 测试 用 例 永 远 不 等 同 于 改善 整个 程序 的 性 能 。 由 于 测试 
时 的 设置 在 许多 方面 都 与 处 理 客户 数据 的 正式 产品 不 同 ， 在 所 有 环境 中 都 取得 在 测试 过 程 
中 测量 到 的 性 能 改善 结果 是 几乎 不 可 能 的 。 尽 管 某 个 任务 在 程序 中 负责 大 部 分 的 逻辑 处 
理 ， 但 是 使 其 变 得 更 快 可 能 仍然 无 法 使 整个 程序 变 得 更 快 。 


例如 ， 一 个 数据 库 开发 人 员 通 过 执行 1000 次 某 个 特定 的 查询 语句 分 析 了 数据 库 性 能 ， 然 
后 基于 分 析 结 果 进 行 了 优化 ， 但 这 可 能 并 不 会 提升 整个 数据 库 的 速度 ， 而 是 只 提升 了 该 查 
询 语 句 的 速度 。 这 也 可 能 会 提升 其 他 查询 语句 的 速度 ， 但 它 可 能 不 会 改善 删除 或 更 新 查 
询 、 建 立 索 引 或 是 数据 库 可 以 进行 的 其 他 处 理 的 速度 。 


3.3 ”分析 程序 执行 


分 析 器 是 一 个 可 以 生成 另外 一 个 程序 的 执行 时 间 的 统计 结果 的 程序 。 分 析 器 可 以 输出 一 份 
包含 每 个 语句 或 函数 的 执行 频 度 、 每 个 函数 的 累积 执行 时 间 的 报表 。 

许多 编译 器 套件 ， 如 Windows 上 的 Visual Studio 和 Linux 上 的 GCC 都 带 有 分 析 器 ， 可 以 
帮助 我 们 找到 程序 中 的 热点 。 微 软 曾经 只 在 价格 昂贵 的 Visual Studio 版 本 中 提供 了 分 析 
器 ， 但 是 自 Visual Studio 2015 社区 版 开始 ， 微 软 开始 向 开发 者 提供 免费 的 分 析 器 。 当 然 ， 
在 Windows 上 还 有 其 他 开源 的 分 析 器 以 及 对 应 早期 的 Visual Studio 版 本 的 分 析 器 。 


有 几 种 方式 可 以 实现 一 个 分 析 器 。 一 种 可 以 同时 支持 Windows 和 Linux 的 方法 如 下 。 


(1) 程 序 员 设 置 一 个 特殊 的 可 以 分 析 程 序 中 所 有 函数 的 编译 选项 ， 重 新 编译 一 次 程序 ， 让 
程序 变 为 可 分 析 的 状态 。 这 涉及 在 每 个 函数 的 开始 和 结束 处 添加 一 些 额 外 的 汇编 语言 
引 令 。 

(2) 程 序 员 将 可 分 析 的 程序 链接 到 分 析 库 上 。 

(3) 每 次 这 个 可 分 析 的 程序 运行 时 都 会 在 磁盘 上 生成 一 张 分 析 表 (profiling table)。 

(4) 分 析 器 读 取 分 析 表 ， 然 后 生成 一 系列 可 阅读 的 文字 或 图 形 报告 。 


另外 一 种 分 析 方 法 是 这 样 的 。 
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(5) 通过 将 优化 前 的 程序 链接 至 分 析 库 上 使 其 变 为 可 分 析 状 态 。 分 析 库 中 的 例 程 会 以 非常 高 
的 频率 中 断 程序 的 执行 ， 记 录 指 令 指 针 的 值 。 

(6) 每 次 可 分 析 的 程序 运行 时 都 会 在 磁盘 上 生成 一 张 分 析 表 。 

(7) 分 析 器 读 取 分 析 表 ， 然 后 生成 一 系列 可 阅读 的 文字 或 图 形 报告 。 

分 析 器 的 输出 结果 可 能 会 有 多 种 形式 。 一 种 形式 是 一 份 标记 有 每 行 代码 的 执行 次 数 的 源 代 

码 清单 。 另 一 种 形式 是 一 份 由 函数 名 和 该 函数 被 调用 的 次 数组 成 的 清单 。 第 三 种 形式 同样 

也 是 函数 清单 ， 不 过 里 面 记录 的 是 每 个 函数 的 累计 执行 时 间 和 在 每 个 函数 中 进行 的 函数 调 

用 。 还 有 一 种 形式 是 一 份 尔 数 和 在 每 个 函数 中 花费 的 总 时 间 的 清单 ， 但 不 包括 调用 其 他 函 

数 的 时 间 、 调 用 系统 代码 的 时 间 和 等 待 事件 的 时 间 。 


分 析 器 的 分 析 功 能 都 是 量 身 设 计 的 ， 它 自身 的 性 能 开销 非常 小 ， 因 此 它 对 程序 整体 运行 时 
间 的 影响 也 很 小 。 通 常 ， 程 序 中 每 个 操作 的 执行 速度 只 会 被 降低 几 个 百分点 。 第 一 种 方法 
的 分 析 结 果 会 非常 精确 ， 代 价 是 更 高 的 间接 成 本 和 禁用 了 某 些 优化 。 第 二 种 方法 的 测量 结 
果 是 近似 值 ， 而 且 可 能 会 遗漏 一 些 非 频繁 地 被 调用 的 函数 ， 但 是 它 的 优点 是 可 以 直接 运行 
于 正式 产品 之 上 。 

分 析 器 的 最 大 优点 是 它 直 接 显示 出 了 代码 中 最 热点 的 函数 。 优 化 过 程 被 简化 为 列 出 需要 调查 
的 函数 的 清单 ， 确 认 各 个 函数 优化 的 可 能 性 ， 修 改 代码 ， 然 后 重新 运行 代码 得 到 一 份 新 的 分 
析 结 果 。 如 此 反复 ， 直 至 没有 特别 热点 的 函数 或 是 你 无 能 为 力 了 为 止 。 由 于 分 析 结 果 中 的 热 
点 了 国 数 从 定义 上 来 说 就 是 代码 中 发 生 大 量 计算 的 地 方 ， 因 此 ， 通 常 这 个 过 程 是 直截了当 的 。 
以 我 个 人 的 分 析 经 验 来 看 ， 对 调试 构建 (debug build) 的 分 析 结 果 和 对 正式 构建 (release 
build) 的 分 析 结 果 是 一 样 的 。 在 某 种 意义 上 ， 调 试 构建 更 易于 分 析 ， 因 为 其 中 包含 所 有 的 
函数 ， 包 括 内 联 函 数 ， 而 正式 构建 则 会 隐藏 这 些 被 频繁 调用 的 内 联 函 数 。 











































































































专业 优化 提示 
在 Windows 上 分 析 调 试 构建 的 一 个 问题 是 ， 调 试 构建 所 链接 的 是 调试 版 本 的 运行 时 
库 。 调 试 版 本 的 内 存 管理 器 函数 会 执行 一 些 额 外 的 测试 ， 以 便 更 好 地 报告 重复 释放 的 
内 存 和 内 存 泄漏 问题 。 这 些 额外 测试 的 开销 会 显著 地 增加 某 些 函数 的 性 能 开销 。 有 一 
个 环境 变量 可 以 让 调试 器 不 要 使 用 调试 内 存 管理 器 : 进入 控制 面板 一 系统 属性 一 高 级 
系统 设置 一 环境 变量 一 系统 变量 ， 然 后 添加 一 个 叫 作 _NO_DEBUG_HEAP 的 新 变量 并 设 定 
其 值 为 1 。 











使 用 分 析 器 是 一 种 帮助 我 们 找到 要 优化 的 代码 的 非常 好 的 方式 ， 但 也 有 它 的 问题 。 

。 分 析 器 无 法 告诉 你 有 更 高 效 的 算法 可 以 解决 当前 的 计算 性 能 问题 。 去 优化 一 个 低 效 的 算 
法 只 是 浪费 时 间 。 

。 对 于 会 执行 许多 不 同 任务 的 待 优化 的 程序 ， 分 析 器 无 法 给 出 明确 的 结果 。 例 如 ， 一 个 
SQL 数据 库 在 执行 insert 语句 时 和 在 执行 select 语句 时 所 运行 的 代码 是 不 一 样 的 。 因 
此 ， 当 使 用 insert 加 载 数 据 库 时 的 热点 代码 ， 可 能 在 数据 库 执 行 select 语句 的 时 候 完 
全 不 会 被 运行 。 除 非 在 分 析 时 会 进行 大 量 计算 ,否则 请 在 测试 中 混合 加 载 数据 库 操作 和 
查询 数据 库 操 作 ， 使 执行 insert 语句 的 代码 在 分 析 结 果 中 不 那么 突出 。 






































因此 ， 要 想 容 易 地 找 出 最 热点 的 函数 ， 请 尽量 一 次 仅 优 化 一 个 任务 。 这 对 于 分 析 整 个 程 
序 中 的 一 个 子 系统 在 测试 套件 上 的 运行 情况 非常 有 帮助 。 不 过 ， 如 果 每 次 只 优化 一 个 任 
务 ， 那 么 也 会 引入 另外 一 种 不 确定 性 : 即 它 不 一 定 会 改善 程序 的 整体 性 能 。 而 实际 上 当 
程序 运行 多 个 任务 时 ， 优 化 的 效果 可 能 就 体现 得 不 那么 明显 了 。 

。 当 遇 到 IO 密集 型 程序 或 是 多 线程 程序 时 ,分 析 器 的 结果 中 可 能 会 含有 误导 信息 ， 因 为 
分 析 器 减 去 了 系统 调用 的 时 间 和 等 待 事件 的 时 间 。 不 计算 这 些 时 间 在 理论 上 是 完全 合理 
的 ， 因 为 程序 并 不 需要 为 这 些 等 待 时 间 负 责 。 但 是 结果 却 是 分 析 器 可 以 告诉 我 们 程序 做 
了 多 少 事情 ， 而 不 是 花 了 多 少 实际 时 间 去 做 这 些 事情 。 有 些 分 析 器 不 仅 统计 了 函数 调用 
的 次 数 ， 还 计算 出 了 每 个 函数 的 调用 时 间 。 如 果 函 数 调用 次 数 非 常 多 ， 意 味 着 分 析 器 可 
能 隐藏 了 实际 时 间 。 

分 析 器 并 不 完美 。 有 些 优化 可 能 性 可 能 不 会 被 分 析出 来 ， 而 且 程序 员 在 理解 分 析 器 的 输出 

结果 时 也 可 能 会 有 问题 。 不 过 ， 对 于 许多 程序 来 说 ， 分 析 器 的 分 析 结 果 已 经 足够 好 了 ， 不 

需要 再 使 用 其 他 的 优化 方法 了 。 


下 De ~ mm 一 
3.4 测量 长 时 间 运 行 的 代码 
如 果 程 序 只 是 运行 一 个 计算 密集 型 的 任务 ， 那 么 分 析 器 会 自动 地 告诉 我 们 程序 中 的 热点 在 
哪里 。 不 过 如 果 程 序 要 做 许多 不 同 的 处 理 ， 可 能 在 分 析 器 看 来 ， 没 有 任何 一 个 国 数 是 热 
点 。 程 序 还 有 可 能 会 花费 大 量 的 时 间 等 待 IO 或 是 外 部 事件 ， 这 样 降低 了 程序 的 性 能 ， 增 
加 了 程序 的 实际 运行 时 间 。 在 这 种 情况 下 ， 我 们 需要 测量 程序 中 各 个 部 分 的 时 间 ， 然 后 试 
着 减少 其 中 低 效 部 分 的 运行 时 间 。 
开发 人 员 通 过 不 断 地 缩小 长 时 间 运 行 的 任务 的 范围 直至 定位 其 中 一 段 代 码 花费 了 大 长 时 
间 ， 感 觉 不 对 劲 这 种 方式 来 查找 代码 中 的 热点 。 在 找 出 这 些 可 疑 代码 后 ， 开 发 人 员 会 在 测 
试 套件 中 对 小 的 子 系统 或 是 独立 的 国 数 进行 优化 实验 。 
测量 运行 时 间 是 一 种 测试 关于 “如 何 减 少 某 个 特定 函数 的 性 能 开销 ”的 假设 的 有 效 方式 。 
一 般 ， 我 们 很 难 意识 到 可 以 通过 编程 在 计算 机 上 实现 秒表 功能 。 你 可 以 非常 方便 地 使 用 手 
机 或 是 手提 电脑 在 工作 日 的 6: 45 叫 醒 你 ， 或 是 在 早上 10 点 的 站 立会 议 前 5 分 钟 提醒 你 
参加 会 议 。 但 是 在 现代 计算 机 上 测量 亚 微 秒 级 的 运行 时 间 却 是 有 点 难度 的 ， 特 别 是 因为 在 
普通 的 Window/PC 平台 上 存在 没有 可 以 稳定 地 工作 于 不 同型 号 的 硬件 和 不 同 的 软件 版 本 
上 的 高 精度 计时 器 的 历史 遗留 问题 。 
因此 ， 作 为 一 名 开发 人 员 ， 你 需要 随时 准备 好 制作 一 个 自己 的 秒表 ， 而 且 必 须知 道 它们 以 
后 可 能 会 发 生变 化 。 为 了 使 这 成 为 可 能 ， 接 下 来 我 会 讨论 如 何 测 量 时 间 以 及 有 哪些 工具 可 
用 于 在 计算 机 上 测量 时 间 。 


3.4.1 一 点 关于 测量 时 间 的 知识 


浅 学 害 人 。 



























































































































































































































































一 一 亚历山大 。 萍 柏 ,“ 批 评论 ” (http:Wpoetry.eserver.oT8&/ 
essay-oncriticism.html) ，1774 年 





一 次 完美 的 测量 是 指 精确 地 得 到 大 小 、 重 量 或 者 在 本 书 中 是 某 个 事件 每 次 持续 的 时 间 。 完 
美的 测量 就 像 是 将 弓箭 不 断 地 精准 地 射 中 靶 心 一 样 。 这 种 箭 术 只 存在 于 故事 书 中 ， 测 量 也 
是 一 样 的 。 

真正 的 测量 实验 (就 像 真 正 的 弓箭 ) 必须 能 够 应 对 可 变性 (variation) : 可 能 破坏 完美 测 
量 的 误差 产 。 可 变性 有 两 种 类 型 : 随机 的 和 系统 的 。 随 机 的 可 变性 对 每 次 测量 的 影响 都 不 
同 ， 就 像 一 阵风 导致 马 稍 偏离 飞行 线路 一 样 。 系 统 的 可 变性 对 每 次 测量 的 影响 是 相似 的 ， 
就 像 一 位 号 箭 手 的 姿势 会 影响 他 每 一 次 射箭 都 偏向 靶子 的 左边 一 样 。 


可 变性 自身 也 是 可 以 测量 的 。 衡 量 一 次 测量 过 程 中 的 可 变性 的 属性 被 称 为 精确 性 (precision) 
和 正确 性 (trueness)。 这 两 种 属性 组 合成 的 直观 特性 称 为 准确 性 (accuracy)。 


1. 精确 性 、 正 确 性 和 准确 性 

很 明显 ， 对 测量 感到 兴奋 的 科学 家 就 相关 的 专业 用 语 展开 了 哄 唆 不 休 的 争论 。 你 只 需 在 维 
基 百 科 上 查找 一 下 “准确 性 ”这 个 词 ， 就 会 发 现 关于 究竟 应 该 使 用 哪些 词 来 解释 已 经 达成 
一 致 的 概念 有 多 少 和 争议 了 。 我 选择 使 用 1994 版 的 ISO 5725-1 中 的 上 下 文 来 解释 术语 :“ 测 
量 方法 和 结果 中 的 准确 性 〈 正 确 性 和 精确 性 ) 一 一 卷 1: 通用 原则 和 定义 ”(1994)。 

如 果 测 量 不 受 随 机 可 变性 的 影响 ， 它 就 是 精确 的 。 也 就 是 说 ， 如 果 反 复 地 测量 同一 现象 ， 
而 且 这 些 测量 值 之 间 非 常 接近 ， 那 么 测量 就 是 精确 的 。 一 系列 精确 的 测量 中 可 能 仍然 包含 
系统 的 可 变性 。 尽 管 一 位 马 箭 手 将 一 组 弓箭 射 到 了 偏离 地 心 的 一 块 区 域 中 ， 但 我 们 仍然 可 
以 说 这 是 精确 的 ， 尽 管 不 太 准 确 。 他 射 中 的 靶子 的 样子 可 能 如 图 3-2 所 示 。 



























































图 3-2: 高 精确 性 (但 低 正 确 性 ) 的 射箭 结果 


如 果 测 量 一 个 事件 (比如 一 个 函数 的 运行 时 间 ) 10 次 ， 而 且 10 次 的 结果 完全 相同 ， 我 们 
可 以 认为 测量 是 精确 的 。( 像 在 任何 实验 中 一 样 ， 我 应 当 会 对 此 持 怀疑 态度 ， 直 到 找到 足 
够 的 证 据 为 止 。) 如 果 其 中 只 有 6 次 结果 相同 ，3 次 结果 略微 有 些 不 同 ，! 次 结果 的 差异 非 
常 大 ， 那 么 测量 就 是 不 够 精确 的 。 

如 果 测 量 不 受 系统 可 变性 的 影响 ， 它 就 是 正确 的 。 也 就 是 说 ， 如 果 反 复 地 测量 同一 现象 ， 
而 且 所 有 测量 结果 的 平均 值 接近 实际 值 ， 那 可 以 认为 测量 是 正确 的 。 每 次 独立 的 测量 可 能 
受到 随机 可 变性 的 影响 ， 所 以 测量 结果 可 能 会 更 接近 或 是 偏离 实际 值 。 正 确 性 并 不 受 马 前 
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手 的 技能 影响 。 在 图 3-3 中 ， 将 四 箭 的 平均 值 看 作 是 一 把 箭 的 话 ， 那 么 它 应 当 是 正中 靶 心 
的 。 而 且 ， 就 环 数 〈 离 轰 心 的 距离 ) 而 言 ， 这 四 箭 具 有 相同 的 准确 性 。 
































图 3-3: 己 葡 手 的 箭 找 到 了 正确 的 靶 心 
测量 的 准确 性 是 一 个 取决 于 每 次 独立 的 测量 结果 与 实际 值 有 多 接近 的 非 正 式 的 概念 。 与 实 











际 值 的 差异 由 随机 可 变性 与 系统 可 变性 两 部 分 组 成 。 只 有 同时 具有 精确 性 和 正确 性 的 测量 
才 是 准确 的 测量 。 

2. 测量 时 间 

本 书 中 涉及 的 软件 性 能 测量 要 么 是 测量 持续 时 间 (两 个 事件 之 间 的 时 间 )， 要 么 是 测量 速 
率 (单位 时 间 内 事件 的 数量 ， 与 持续 时 间 相对 )。 用 于 测量 持续 时 间 的 工具 是 时 钟 。 

所 有 时 钟 的 工作 原理 都 是 周期 性 地 计数 。 某 些 时 钟 的 计数 会 表示 为 时 、 分 、 秒 ， 有 些 则 是 
直接 显示 时 标的 次 数 。 但 是 时 钟 (除了 日 器 外 ) 是 并 不 会 直接 测量 时 、 分 、 秒 的 。 它 们 只 
会 对 时 标 进 行 计数 ， 然 后 只 有 将 时 标 计数 值 与 秒 基准 的 时 钟 进行 比较 后 才能 校准 时 钟 ， 显 
示 出 时 、 分 、 秒 。 

周期 性 地 改变 的 东西 受到 可 变性 的 影响 也 会 出 现 误差 。 有 些 可 变性 是 随机 的 ， 有 些 可 变性 
则 是 系统 的 。 























日 号 利用 了 地 球 的 周期 性 旋转 。 从 定义 上 说 ， 一 次 完整 的 旋转 是 一 天 。 地 球 并 非 完美 的 
时 钟 ， 不 仅 是 因为 周期 太 长 ， 而 且 我 们 发 现 由 于 大 陆 在 它 表面 上 缓慢 地 移动 ， 它 的 旋转 
速度 时 快 时 慢 ( 微 秒 级 别 )。 这 种 可 变性 是 随机 的 ， 来 自 月 球 和 太阳 的 潮汐 力 会 降低 地 
球 的 整体 旋转 速率 。 这 种 可 变性 是 系统 的 。 

老式 时 钟 会 对 钟 摆 有 规律 的 摆动 计数 。 此 轮 会 随 着 钟 摆 驱 动 指针 旋转 来 显示 时 间 。 钟 摆 
摆动 的 间隔 可 以 手动 调整 ， 这 样 所 显示 的 时 间 可 以 与 地 球 旋转 同步 。 钟 摆 摆 动 的 周期 取 
决 于 钟 摆 的 重量 和 它 的 长 度 ， 这 样 就 可 以 根据 需要 让 摆动 得 更 快 或 是 更 慢 。 这 种 可 变性 
是 系统 的 ， 而 即使 在 最 开始 钟 摆 的 摆动 非常 精准 ， 但 摩 控 、 气 压 和 累积 的 灰尘 都 会 对 摆 
动 造 成 影响 。 这 些 都 是 随机 可 变性 因素 。 

电子 时 钟 使 用 它 的 交流 电源 的 周期 性 的 60Hz 正弦 波 驱动 同步 电机 。 齿 轮 会 下 分 基本 振 
荡 和 驱动 指针 来 显示 时 间 。 电 子 时 钟 也 并 非 完 美的 时 钟 ， 因 为 根据 惯例 (不 是 自然 法 
则 ), 交流 电源 的 周期 只 有 60Hz (在 美国 )。 当 负荷 过 高 时 ,电力 公司 会 先 降低 振荡 周期 ， 
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稍 后 又 提高 振荡 周期 ， 这 样 电子 时 钟 并 不 会 走 慢 。 所 以 ， 在 炎热 夏 日 的 午后 电子 时 钟 的 
一 秒 可 能 会 比 凉爽 夜晚 的 一 秒 快 (虽然 我 们 总 是 对 此 表示 怀疑 )。 这 种 可 变性 是 随机 的 。 
将 一 个 为 美国 用 户 制造 的 电子 时 钟 插入 到 欧洲 50Hz 的 交流 电源 插座 中 ， 它 会 走 得 慢 。 
与 气温 引起 的 随机 可 变性 相 比 ， 这 种 由 欧洲 电源 插座 引起 的 可 变性 是 系统 的 。 

。 数字 腕 表 采 用 石英 晶体 的 诱导 振动 作为 基本 振动 。 逻 辑 电 路 会 下 分 基本 振动 并 驱动 时 间 
显示 。 石 英 品 体 的 振动 周期 取决 于 它 的 大 小 、 温 度 以 及 加 载 的 电压 。 石 美 晶体 的 大 小 的 
影响 是 系统 的 可 变性 ， 而 温度 和 电压 的 可 变性 则 是 随机 的 。 

时 标 计数 值 肯定 是 一 个 无 符号 的 值 。 不 可 能 存在 -5 次 时 标 。 我 之 所 以 在 这 里 提醒 大 家 这 

个 看 似 非 常 明显 的 事实 ， 是 因为 正如 稍 后 会 向 大 家 展示 的 ， 许 多 开发 人 员 实 现 计 时 函数 时 

选择 有 符号 类 型 来 表示 持续 时 间 。 我 不 知道 为 什么 他 们 这 么 做 。 我 那 十 几 岁 的 儿子 应 该 会 

说 :“ 这 没什么 大 不 了 。 

3. 测量 分 辩 率 

测量 的 分 辩 率 是 指 测量 所 呈现 出 的 单位 的 大 小 。 

一 位 弓箭 手 只 要 将 弓箭 射 在 指定 环 内 的 任意 位 置 ， 所 得 到 的 分 数 都 是 相同 的 。 靶 心 并 非 是 

无 限 小 的 点 ， 而 是 一 个 给 定 直径 的 圆 环 〈 请 参见 图 3-4) 。 一 支 箭 要 么 设 在 靶 心 ， 或 是 九 

环 、 八 环 等 。 每 一 环 的 宽度 就 是 射箭 得 分 的 分 辩 率 。 









































图 3-4: 分 辨 率 , 一 支 箭 设 在 一 环 中 任意 地 方 的 得 分 是 相同 的 


时 间 测 量 的 有 效 分 辨 率 会 受到 六 在 波动 的 持续 时 间 的 限制 。 时 间 测 量 结果 可 以 是 一 次 或 者 
两 次 时 标 ， 但 不 能 是 这 两 者 之 间 。 这 些 时 标 之 间 的 间隔 就 是 时 钟 的 有 效 分 辩 率 。 

观察 人 员 可 能 会 察觉 到 一 个 走 得 很 慢 的 时 钟 的 两 次 时 标 之 间 发 生 的 事情 ， 例 如 钟 摆 的 一 次 
摆动 。 这 只 是 说 明 在 人 类 脑海 中 有 一 个 更 快 的 时 钟 (虽然 没有 那么 准确 )， 他 们 会 将 这 个 
时 钟 的 时 间 与 钟 摆 的 时 间 进 行 比较 。 观 察 人 员 如 果 想 测量 那些 不 可 感知 的 持续 时 间 ， 例 如 
毫秒 级 别 ， 只 能 用 时 钟 的 时 标 。 
在 测量 的 准确 性 与 它 的 分 辩 率 之 间 是 没有 任何 必需 的 关联 的 。 例 如 ， 假 设 我 记录 了 我 每 天 
的 工作 ， 那 么 我 可 以 报告 说 我 花 了 两 天 来 编写 本 方 内容。 在 这 个 例子 中 ,测量 的 有 效 分 辨 
率 是 “天 ”。 如 果 我 想 把 这 个 时 间 换 成 秒 ， 那 么 可 以 报告 说 成 我 花 了 172 800 秒 来 编写 本 市 
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内 容 。 但 除非 我 手头 上 有 一 个 秒表 ， 否 则 以 秒 为 单位 进行 报告 会 让 人 误 认为 比 之 前 更 加 准 
确 ,， 或 是 给 人 一 种 没有 吃饭 和 睡觉 的 错觉 。 
测量 结果 的 单位 可 能 会 比 有 效 分 辨 率 小 ， 因 为 单位 才 是 标准 。 我 有 一 个 可 以 以 华氏 温度 为 
单位 显示 温度 的 烤箱 。 恒 温 器 控制 着 烤箱 ， 但 是 有 效 分 辨 率 只 有 5°F。 所 以 在 烤箱 加 热 的 
过 程 中 ， 显 示 屏 上 显示 的 温度 会 是 300"F， 接 着 是 305°F、310°%F、315°F 等 。 以 一 度 为 单 
位 显示 温度 应 该 比 恒温 器 的 单位 更 合理 。 有 效 分 辨 率 只 有 5°F 只 是 表示 测量 的 最 低 有 效 位 
只 能 是 0 或 者 5。 
当 读 者 知道 他 们 身边 廉价 的 温度 计 、 尺 子 和 其 他 测量 设备 的 有 效 分 辨 率 后 可 能 会 感到 吃惊 
和 失望 ， 因 为 这 些 设备 的 显示 分 状 率 是 1 个 单位 或 是 10 单位 。 
4. 用 多 个 时 钟 测量 

只 有 一 块 表 的 人 知道 现在 的 时 间 ， 而 拥有 两 块 表 的 人 却 永远 不 能 确定 现在 的 时 间 。 
多 认为 该 名 言 出 自 Lee Segall 


当 两 个 事件 在 同一 个 地 点 发 生 时 ， 很 容易 通过 一 个 时 钟 的 时 标 计 数 来 测量 事件 的 经 过 时 
间 。 但 是 如 果 这 两 个 事件 发 生 在 相距 很 远 的 不 同 地 点 ， 可 能 就 需要 两 个 时 钟 来 测量 时 间 。 
而 两 个 不 同时 钟 的 时 标 次 数 无 法 直接 比较 。 

人 类 想到 了 一 个 办 法 ， 那 就 是 通过 与 国际 协调 时 间 (Coordinated Universal Time) 同步 。 
国际 协调 时 间 与 经 度 0 度 的 天 文学 上 的 午夜 同步 ， 而 经 度 0 度 这 条 线 穿 过 了 英格兰 格林 威 
治 皇 家 天 文 台中 的 一 块 漂亮 的 牌匾 (请 参见 图 3-5)。 这 样 就 可 以 将 一 个 以 时 标 计数 值 表 示 
的 时 间 转 换 为 以 时 分 秒表 示 的 相对 UTC (Universal Time Coordinated， 国 际 协调 时 间 ， 由 
法 国 和 英国 的 时 钟 专家 商定 的 一 个 既 不 是 法 式 拼写 也 不 是 英 式 拼写 的 缩写 ) 午夜 的 时 间 。 

















































































































3-5: 英格兰 格林 威 治 皇家 天 文学 馆 的 本 初子 午 线 的 标记 (摄影 : 在 var Arnfj6r5 Bjarmason， 
license CC BY-SA 3.0) 
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如 果 两 个 时 钟 都 与 UTC 完美 地 同步 了 ， 那 么 其 中 一 个 时 钟 的 相对 UTC 时 间 可 以 直接 与 另 
外 一 个 相 比较 。 但 是 当然 ， 完 全 的 同步 是 不 可 能 的 。 两 个 时 钟 都 有 各 自 独立 的 可 变性 因 
素 ， 导 致 它们 与 UTC 之 间 以 及 它们 互相 之 间 产 生 误 差 。 


3.4.2 ”用 计算 机 测量 时 间 

要 想 在 计算 机 上 制作 一 个 时 钟 需要 一 个 周期 性 的 振动 源 一 一 最 好 有 很 好 的 精确 性 和 正确 
性 以 及 一 种 让 软件 获取 振动 源 的 时 标的 方法 。 要 想 专门 为 了 计时 而 制造 一 台 计 算 机 是 
很 容易 的 。 不 过 ， 多 数 现在 流行 的 计算 机 体系 结构 在 设计 时 都 没有 考虑 过 要 提供 很 好 的 时 
钟 。 我 将 会 结合 PC 体系 结构 和 微软 的 Windows 操作 系统 讲解 问题 所 在 。Linux 和 帐 入 式 
平台 上 也 存在 类 似 的 问题 。 


PC 时 钟 电路 核心 部 分 的 晶体 振荡 器 的 基本 精度 是 100PPM， 即 0.01% ， 或 者 每 天 约 8 秒 的 
误差 。 虽 然 这 个 精度 只 比 数字 腕 表 的 精度 高 一 点 点 ， 但 对 性 能 测量 来 说 已 经 足够 了 ， 因 为 
对 于 极其 非 正式 的 测量 结果 ， 精 确 到 几 个 百分点 就 可 以 了 。 廉 价 的 嵌入 式 处 理 器 的 时 钟 电 
路 的 精确 度 较 低 ， 但 是 最 大 的 问题 并 非 周期 性 振动 的 振动 源 ， 更 困难 的 是 如 何 让 程序 得 到 
可 靠 的 时 标 计 数值 。 

1. 硬件 时 标 计数 器 的 发 展 

起 初 的 IBM PC 是 不 包含 任何 硬件 时 标 计数 器 的 。 它 确实 有 一 个 记录 一 天 之 中 的 时 间 的 
时 钟 ， 软 件 也 可 以 读 取 这 个 时 间 。 最 早 的 微软 的 C 运行 时 库 复制 了 ANSI C 库 ， 提 供 了 
time t time(time_t*) 畏 数 。 该 国 数 会 返回 一 个 距离 UTC 时 间 1970 年 1 月 1 日 0:00 的 秒 
数 。 旧 版 本 的 time() 函数 返回 的 是 一 个 32 位 有 符号 整数 , 但 是 在 经 历 了 Y2K 之后， 它 被 
修改 成 了 一 个 64 位 的 有 符号 整数 。 


起 初 的 IBM PC 会 使 用 来 自 交 流 电 源 的 周期 性 的 中 断 来 唤醒 内 核 去 进行 任务 切换 或 是 进行 
其 他 内 核 操 作 。 在 北美 ， 这 个 周期 是 16.67 毫秒 ， 因 为 交流 电源 是 60Hz 的 。 如 果 交 流 电 
源 是 50Hz 的 话 ， 这 个 周期 就 是 20 毫秒 。 

自 Windows 98 (可 能 更 早 ) 以 来 ， 微 软 的 C 运行 时 提供 了 ANSI C 函数 clock_t clock()。 
该 函数 会 返回 一 个 有 符号 形式 的 时 标 计 数 器 。 常 量 CLOCKS_PER_SEC 指定 了 每 秒 钟 的 时 标的 
次 数 。 返 回 值 为 -1 表示 clock() 不 可 用 。clock() 会 基于 交流 电源 的 周期 性 中 断 记录 时 标 。 
clock() 在 Windows 上 的 实现 方式 与 ANSI 所 规定 的 不 同 ， 在 Windows 上 它 所 测量 的 是 经 
过 时 间 而 非 CPU 时 间 “。 最 近 ,clock() 被 根据 GetSystemTimeAsfileTime() 重新 实现 了 。 在 
2015 年 时 它 的 时 标 是 1 毫秒 ， 分 辩 率 也 是 1 毫秒 。 这 使 得 它 成 了 Windows 上 一 个 优秀 的 
毫秒 级 别 的 时 钟 。 

自 Windows 2000 开始 ， 可 以 通过 调用 DWORD GetTickCount() 来 实现 基于 A/C 电源 中 断 的 
软件 时 标 计数 器 。GetTickCount() 的 时 标 计 数值 取决 于 PC 的 硬件 ， 可 能 会 远 比 1 毫秒 长 。 
GetTickCount() 会 进行 一 次 将 时 标 转 换 为 毫秒 的 计算 来 消除 部 分 不 确定 性 。 这 个 方法 的 一 
个 升级 版 是 ULONGLONG GetTickCount64()， 它 会 以 64 位 无 符号 整数 的 形式 返回 相同 的 时 标 
































































































































注 3: 即 千 禧 危机 、 千 年 虫 、 千 年 问题 。 一 一 译 者 注 
注 4: 要 想 测 量 CPU 时 间 ， 请 使 用 Win32 的 GetProcessTimes 函数 。 一 一 译 者 注 
































计数 值 ， 这 样 可 以 测量 更 长 的 处 理 时 间 。 虽 然 没 有 办 法 知道 当前 的 中 断 周期 ， 但 下 面 这 对 
国 数 可 以 缩短 和 然后 恢复 周期 : 


MMRESULT timeBeginperiod(UINT) 
MMRESULT timeEndPeriod(UINT) 


这 两 个 函数 作用 于 全 局 变量 上 ,会 影响 所 有 的 进程 和 其 他 函 
周期 的 Sleep()。 另 外 一 个 函数 DWORD timeGetTime() 可 以 通 
计数 值 。 

自 奔腾 体系 结构 后 ， 英 特 尔 提供 了 一 个 叫 作 时 间 戳 计数 器 (Time Stamp Counter，TSC) 的 
硬件 寄存 器 。TSC 是 一 个 从 处 理 器 时 钟 中 计算 时 标 数 的 64 位 寄存 器 。RDTSC 指令 可 以 非常 
快 地 访问 该 寄存 器 。 

自 Windows 2000 问世 后 ， 可 以 通过 调用 函数 BOOL Query PerformanceCounter(LARGE_ 
INTEGER*) 来 读 取 TSC， 这 将 会 产生 一 次 特殊 的 不 带 分 辨 率 的 时 标 计 数 。 可 以 通过 调用 
BOOL QueryPerformanceFrequency(LARGE_INTEGER*) 来 获得 分 辨 率 ， 它 会 返回 每 秒 钟 时 标的 
频率 。LARGE_INTEGER 是 一 个 带 有 有 符号 格式 的 64 位 整数 的 结构 体 ， 因 为 在 当时 引入 了 以 
上 这 些 函 数 的 Visual Studio 中 还 没有 原生 的 64 位 有 符号 整数 类 型 。 


初始 版 本 的 QueryPerformanceCounter() 的 一 个 问题 是 ， 它 的 时 标 速 率 取决 于 处 理 器 的 时 
钟 。 不 同 处 理 器 和 主板 的 处 理 器 时 钟 不 同 。 在 当时 ， 老 式 的 PC， 特别 是 那些 使 用 超 微 半 
导体 公司 (Advanced Micro Devices，AMD) 处 理 器 的 PC 是 没有 TSC 的 。 在 当时 没有 
TSC 可 用 的 情况 下 ，QueryPerformanceCounter() 会 返回 GetTickCount() 返回 的 低 分 辩 率 的 
时 标 计数 值 。 

在 Windows 2000 中 还 新 增加 了 一 个 void GetSystemTimeAsfileTime(fiLETIME*) 国 数 ， 它 
会 返回 一 个 自 1601 年 1 月 1 日 00:00 UTC 开始 计算 的 以 100 纳 秒 为 时 标的 计数 值 。 其 中 ， 
fiLETINE 也 是 一 个 带 有 64 位 整数 的 结构 体 ， 不 过 这 次 是 无 符号 的 形式 。 尽管 该 时 标 计数 
器 显示 出 来 的 分 辩 率 看 起 来 非常 高 ， 有 些 实现 却 使 用 了 与 GetTickCount() 所 使 用 的 低 分 辨 
率 计数 器 相同 的 计数 器 。 

很 快 ，QueryPerformanceCounter() 的 更 多 问题 暴露 出 来 了 。 有 些 处 理 器 实现 了 可 变 时 钟 
频率 来 管理 功 耗 。 这 会 导致 时 标 周 期 发 生 了 变化 。 在 拥有 多 个 独立 处 理 器 的 多 处 理 器 系统 
中 ，QueryPerformanceCounter() 返回 的 值 取 决 于 线程 运行 于 哪个 处 理 器 之 上 。 处 理 器 开 
台 实现 指令 重 排序 之 后 ， 导 致 RDTSC 指令 可 能 会 发 生 延 迟 ， 降 低 使 用 了 TSC 的 软件 的 
准确 性 。 

为 了 解决 这 些 问 题 ，Windows Vista 为 QueryPerformanceCounter() 使 用 了 一 种 不 同 的 计 
数 器 ， 称 为 Advanced Configuration and Power Interface (ACPI) 电源 管理 计时 器 。 使 用 
这 个 计数 器 虽然 能 够 解决 多 处 理 器 的 同步 问题 ， 但 是 却 显 著 地 增加 了 延迟 。 与 此 同时 ， 
英特尔 重新 指定 了 TSC 为 最 大 且 不 变 的 时 钟 频率 。 此 外 ， 英 特 尔 还 增加 了 不 可 重 排序 的 
RDTSCP 指令 。 


自 Windows 8 开始 ，Windows 提供 了 一 种 基于 TSC 的 、 可 靠 的 、 高 分 辩 率 的 硬件 时 标 计 
数 。 只 要 该 系统 运行 于 Windows 8 或 者 之 后 的 版 本 上 ，void GetSystemTimePreciseAsfileT 
ime(fiLETIME*) 就 可 以 生成 一 个 国定 频率 和 亚 微 秒 准确 度 的 高 分 辩 率 时 标 。 




















数 ， 如 取决 于 交流 电源 的 中 断 
过 另 一 种 方法 获取 相同 的 时 标 
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一 句 话 总 结 本 党 历史 课 的 内 容 就 是 ，PC 从 来 都 不 是 设计 作为 时 钟 的 ， 因 此 它们 提供 的 时 
标 计数 器 是 不 可 靠 的 。 如 果 以 过 去 35 年 的 历史 为 鉴 ， 未 来 的 处 理 器 和 操作 系统 可 能 依然 
无 法 提供 稳定 的 、 高 分 辨 率 的 时 标 计 数值 。 


历代 PC 都 提供 的 唯一 可 靠 的 时 标 计 数 器 就 是 GetTickCount() 返回 的 时 标 计 数 器 
了 ， 尽 管 它 也 有 缺点 。cLock() 返回 的 毫秒 级 的 时 标 更 好 ， 而 且 近 10 年 生产 的 PC 
应 该 都 是 支持 该 函数 的 。 如 果 只 考虑 Windows 8 及 之 后 的 版 本 和 新 的 处 理 器 的 话 ， 
GetSystemTimepPreciseAsfiLeTime() 返回 的 100 纳 秒 级 别 的 时 标 计数 器 是 非常 精确 的 。 不 
过 ， 就 我 个 人 的 经 验 来 看 ， 对 时 间 测 量 来 说 毫秒 级 别 的 准确 性 已 经 足够 了 。 
2. 返 转 
返 转 (wraparound) 是 指 当时 钟 的 时 标 计数 器 值 到 达 最 大 值 后 ， 如 果 再 增加 就 变 为 0 的 
过 程 。12 小 时 制 的 模拟 时 钟 在 每 天 的 正午 和 午夜 各 会 进行 一 次 返 转 。Windows 98 在 连续 
运行 49 天 后 会 因 32 位 毫秒 时 标 计数 器 的 返 转 而 挂 起 (请 参见 Q216641)。 当 两 位 数 的 年 
份 返 转 时 会 发 生 Y2K 问题 。 玛 雅 日 历 在 2012 年 返 转 ， 因 为 玛雅 人 认为 那 就 是 世界 末日 。 
UNIX 时 间 惟 ( 自 UTC1970 年 1 月 1 日 00:00 起 的 带 符号 的 32 位 秒 数 ) 会 在 2038 年 1 月 
发 生 返 转 ， 这 可 能 会 称 为 某 些 “历史 悠久 ”的 舱 入 式 系 统 的 “世界 末日 "。 返 转 的 问题 出 
在 缺少 额外 的 位 去 记录 数据 ， 导 致 下 次 时 间 增 加 后 的 数值 比 上 次 时 间 的 数值 小 。 会 返 转 的 
时 钟 仅 适 用 于 测量 持续 时 间 小 于 返 转 间 隔 的 时 间 。 
例如 ， 在 Windows 上 ，GetTickCount() 国 数 会 返回 一 个 分 辨 率 为 1 毫秒 的 32 位 无 符号 的 
整数 值 作 为 时 标 计 数值 。 那 么 ，GetTickCount() 的 返回 值 会 每 49 天 返 转 一 次 。 也 就 是 说 ， 
GetTickCount() 适用 于 测量 那些 所 需 时 间 小 于 49 天 的 操作 。 如 果 一 个 程序 在 某 个 操作 开始 
时 和 结束 时 分 别 调用 了 GetTickcount()， 两 个 返回 值 之 间 的 差 值 就 是 两 次 调用 之 间 经 过 的 
毫秒 数 。 例 如 ; 

DWORD start = GetTickCount(); 

DoBigTask(); 


DWORD end = GetTickCount(); 
cout << "Startup took " << end-start << " ms" << endl; 


C++ 实现 无 符号 算术 的 方式 去 确保 了 即使 在 发 生 返 转 时 也 可 以 得 到 正确 的 结果 。 
GetTickCount() 对 于 记 住 自 程序 启动 后 所 经 过 的 时 间 是 比较 低 效 的 。 许 多 “历史 悠 入 ”的 
服务 器 可 以 持续 运行 数 个 月 其 至 数 年 。 返 转 的 问题 在 于 ， 由 于 缺少 位 数 去 记录 返 转 的 次 
数 ，end-start 的 结果 中 可 能 体现 不 出 发 生 了 返 转 ， 或 是 体现 出 一 个 或 者 多 个 返 转 。 

自 Windows Vista 开始 ， 微 软 加 入 了 GetTickCount64() 国 数 ， 它 会 返回 一 个 64 位 无 符号 且 
显示 分 状 率 为 1 毫秒 的 时 标 计 数值 。GetTickCount64() 的 结果 只 有 在 数 百 万 年 后 才 会 发 生 
返 转 。 这 就 意味 着 ， 几 乎 不 会 有 人 人 能够 见证 返 转发 生 了 。 

3. 分 辨 率 不 是 准确 性 

在 Windows 上 ，GetTickCount() 会 返回 一 个 无 符号 的 32 位 整数 值 。 如 果 一 个 程序 在 某 个 
操作 开始 和 结束 时 分 别 调用 了 GetTickCount()， 两 个 返回 值 之 间 的 差 值 就 是 两 次 调用 之 间 
经 过 的 毫秒 单位 的 执行 时 间 。 因 此 ，GetTickCount() 的 分 辩 率 是 1 毫秒 。 

例如 ， 下 面 这 段 代码 通过 在 循环 中 反复 调用 Foo()， 在 Windows 上 测量 了 名 为 Foo() 的 函 
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数 的 相对 性 能 。 通 过 在 代码 块 开 始 和 结束 时 得 到 的 时 标 计数 值 ， 我 们 可 以 计算 出 循环 处 理 
所 花费 的 时 间 : 
DWORD start = GetTickCount(); 


for (unsigned i = 0; i < 1000; ++i) { 
Foo(); 








DWORD end = GetTickCount(); 
cout << "1000 calls to Foo() took " << end-start << "ms" << endl; 


如 果 Foo() 中 包含 了 大 量 的 计算 ， 那 么 这 段 代 码 的 输出 结果 可 能 如 下 : 


1000 calls to Foo() took 16ms 




















不 幸 的 是 ， 从 微软 网 站 中 关于 GetTickCount() 的 文档 (https://msdn.microsoft.com/en-us/ 
library/windows/desktop/ms724408(v=vs.85).aspx) 来 看 ， 调 用 GetTickCcount() 的 准确 性 
可 能 是 10 毫秒 或 15.67 毫秒 。 也 就 是 说 ， 如 果 连 续 调 用 两 次 GetTickCount()， 那 么 结果 
之 间 的 差 值 可 能 是 0 或 者 1 毫秒 ， 也 可 能 是 10、15 或 16 毫秒 。 因 此， 测量 的 基础 精度 
是 15 毫秒 ， 额 外 的 分 辨 率 毫 无 价值 。 之 前 代码 块 的 输出 结果 可 能 会 是 10ms、20ms 或 精 
确 的 16ms。 


GetTickCount() 特别 让 人 诅 形 的 一 点 是 ， 除 了 分 辩 率 是 1 毫秒 外 ， 无 法 确保 在 两 台 
Windows 计算 机 中 该 函数 是 以 某 种 方式 或 是 相同 方式 实现 的 。 


我 在 Windows 上 测试 了 许多 计时 国 数 ， 试 图 找 出 它们 在 某 一 台 计 算 机 (基于 并 处理 器 的 
Surface 3 平板 电脑 ) 的 革 个 操作 系统 (Windows 8.1) 上 的 可 用 分 辨 率 。 示 例 代 码 3-1 中 的 
测试 循环 地 调用 了 测量 时 间 的 函数 ， 并 检查 这 些 连续 的 函数 调用 的 返回 值 之 间 的 差 值 。 如 
果 时 标的 可 用 分 辨 率 大 于 函数 调用 的 延迟 ， 那 么 这 些 连 续 的 函数 调用 的 返回 值 将 要 么 相 
同 ， 要 么 它们 之 间 的 差 值 是 若干 个 基础 时 标 ， 单 位 是 函数 的 分 辩 率 。 我 计算 了 非 零 差 值 的 
平均 值 ， 以 排除 操作 系统 偷 用 时 间 片 段 去 执行 其 他 任务 的 误差 。 


代码 清单 3-1 测量 GetTickCount() 的 时 标 
unsigned nz_count = 0，nz_sum = 0; 
ULONG last, next; 
for (last = GetTickCount(); nz_count < 100; last = next) { 
next = GetTickCount(); 
if (next != last) { 
nz_count += 1; 
Nz_sum += (next - last); 














































































































} 

std::cout << "GetTickCount() mean resolution " 
<< (double)nz_sum / nz_count 
<< " ticks" << std::endl; 


我 将 测量 结果 总 结 在 了 表 3-1 中 。 














表 3-1 : 在 i7 的 Surface Pro 3 (Windows 8.1) 上 测量 的 时 标 结果 





函数 时 标 
time() 1 秒 
GetTickCount() 15.6 上 毫秒 
GetTickCount64() 15.6 毫秒 
timeGetTime() 15.6 毫秒 
clock() 1.0 毫秒 
GetSystemTimeAsFileTime() 0.9 毫秒 
GetSystemTimepreciseAsFileTime() 约 450 纳 秒 
QueryPerformanceCounter() 约 450 纳 秒 


需要 特别 注意 的 是 GetSystemTimeAsfiLeTime() 国 数 。 它 的 显示 分 辩 率 是 100 纳 秒 ， 但 
是 看 起 来 却 似 乎 是 基于 同样 低 分 辩 率 的 1 上 毫秒 时 标的 clock() 实现 的 ， 而 GetSystemTime 
PreciseAsfileTime() 看 起 来 则 是 用 QueryPerformanceCounter() 实现 的 。 


现代 计算 机 的 基础 时 钟 周期 已 经 短 至 了 数 百 皮 秒 (100 皮 秒 是 10" 秒 )。 它 们 可 以 以 几 纳 
秒 的 速度 执行 指令 。 但 是 在 这 些 PC 上 却 没 有 提供 可 访问 的 皮 秒 级 或 是 纳 秒 级 的 时 标 计数 
器 。 在 PC 上 ， 可 使 用 的 最 快 的 时 标 计数 器 的 分 辨 率 是 100 纳 秒 级 的 ， 而 且 它 们 的 基础 准 
确 性 可 能 远 比 它们 的 分 状 率 更 低 。 这 就 导致 不 太 可 能 测量 函数 的 一 次 调用 的 持续 时 间 。 读 
者 可 以 参见 3.4.3 节 看 看 如 何 应 对 这 个 问题 。 

4. 延迟 

延迟 是 指 从 发 出 命令 让 活动 开始 到 它 真正 开始 之 间 的 时 间 。 延 迟 是 从 丢 下 一 枚 硬币 到 井 水 
中 到 听见 井 水 溅 落 之 间 的 时 间 (请 参见 图 3-6)。 它 也 是 发 令 员 鸣 枪 至 选手 出 发 之 间 的 时 间 。 
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就 计算 机 上 的 时 间 测 量 而 言 ， 之 所 以 会 有 延迟 是 因为 启动 时 钟 、 运 行 实验 和 停止 时 钟 是 一 
系列 的 操作 。 整 个 测量 过 程 可 以 分 解 为 以 下 五 个 阶段 。 


(1)“ 启 动 时 钟 ”涉及 调用 函数 从 操作 系统 中 获取 一 个 时 标 计数 。 这 个 调用 的 时 间 大 于 0。 
在 函数 调用 过 程 中 ,会 实际 地 从 处 理 器 寄存 器 中 获取 时 标 计数 器 的 值 。 这 个 值 就 是 开始 
时 间 。 我 们 称 其 为 间隔 t1。 

(2) 在 读 取 时 标 计数 器 的 值 后 ， 它 仍然 必须 被 返回 和 赋值 给 一 个 变量 。 这 些 动作 也 需要 花费 
时 间 。 实 际 的 时 钟 已 经 在 计时 的 过 程 中 了 ,但 是 时 标 计数 值 还 没有 增加 。 我 们 称 其 为 间 
隔 b。 

(3) 测量 实验 开始 ， 然 后 结束 。 我 们 称 其 为 间隔 4。 

(4)“ 停 止 时 钟 ” 涉 及 另外 一 个 函数 调用 去 获取 一 个 时 标 计 数值 。 虽 然 实 验 已 经 结束 了 ,但 
是 在 函数 运行 至 读 取 时 标 计数 值 的 过 程 中 ， 计 时 器 仍然 在 计时 。 我 们 称 其 为 间隔 4。 
(5) 读 取 时 标 计数 器 的 值 后 ， 它 仍然 必须 被 返回 和 赋值 给 一 个 变量 。 这 时 ， 虽 然 时 钟 仍然 在 
计时 ， 但 是 由 于 已 经 读 取 了 时 标 计数 器 的 值 ， 因 此 测量 结果 并 不 会 继续 错误 地 累加 。 我 

们 称 其 为 间隔 太 。 


因此 ， 虽 然 实际 上 测量 时 间 应 当 是 s， 但 测量 到 的 值 却 更 长 一 些 ， 是 tlsth。 因 此 ， 延 迟 就 
是 bths。 如 果 延 迟 对 相对 实验 运行 时 间 的 比例 很 大 ， 实 验 员 必须 从 实验 结果 中 减 去 延迟 。 


假设 获取 一 次 时 标 计 数值 的 时 间 是 1 微 秒 (ps)， 而 且 时 标 计 数值 是 由 当时 执行 的 最 后 一 条 
外 令 获得 的 。 在 以 下 这 上 段 伪 代 码 中 ， 直 到 第 一 次 函数 调用 的 最 后 一 条 指令 调用 get_tick() 
才 开 始 测量 时 间 ， 因 此 在 测量 活动 之 前 是 没有 延迟 的 。 在 测试 的 最 后 调用 get_tick() 的 延 
述 则 被 计算 到 了 测量 结果 中 : 
start = get_tick() // 测量 开始 之 前 的 lps 延 迟 没 有 影响 
do_activity() 
stop = get_tick() // 测量 开始 之 后 的 lps 延 迟 被 计算 到 测量 结果 
duration = stop-start 
如 果 被 测量 的 活动 的 执行 时 间 是 1 微 秒 ， 那 么 测量 结果 就 是 2 微 秒 ， 误 差 达 将 会 到 
100%; 而 如 果 被 测量 的 活动 的 执行 时 间 是 1 毫秒 ， 那 么 测量 结果 就 是 1.001 微 秒 ， 误 差 
只 有 0.1%。 
如 果 同 一 个 函数 既 在 实验 前 被 调用 了 ， 也 在 实验 后 被 调用 了 ， 那 么 有 t=ts 和 =ts。 也 就 是 
说 ， 延 迟 就 是 计时 函数 的 执行 时 间 。 
我 在 Windows 上 测试 了 计时 函数 的 调用 延迟 ， 也 就 是 它们 的 执行 时 间 。 代 码 清单 3-2 展示 
了 一 个 典型 的 用 于 计算 GetSystemTimeAsfile() 函数 的 时 间 的 测试 套件 。 


代码 清单 3-2 Windows 计时 函数 的 延迟 

ULONG start = GetTickCount(); 

LARGE_INTEGER count; 

for (counter t i = 0; i < nCalls; ++i) 

QueryPerformanceCounter(&count); 

ULONG stop = GetTickCount(); 

std::cout << stop - start 
<< "ms for 100m QueryPerformanceCounter() calls" 
<< std::endl; 
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表 3-2 列 出 了 这 次 测试 的 结果 。 
表 3-2: Windows 计 时 函数 的 延迟 (2013, i7，Win 8.1) 























函数 执行 时 间 
GetSystemTimeAsFileTime() 2.8 纳 秒 
GetTickCount() 3.8 纳 秒 
GetTickCount64() 6.7 纳 秒 
QueryPerformanceCounter() 8.0 纳 秒 
clock() 13 纳 秒 
time() 15 纳 秒 
TimeGetTime() 17 纳 秒 
GetSystemTimepreciseAsFileTime() 22 纳 秒 


测试 结果 中 非常 有 趣 的 地 方 是 ， 在 我 的 这 平板 电脑 上 ， 所 有 的 延迟 都 在 若干 纳 秒 的 范围 
内 。 所 以 ， 这 些 函 数 调 用 是 相当 高 效 的 。 这 就 意味 着 延迟 不 会 对 在 循环 中 连续 调用 函数 约 
1 秒 的 测量 结果 的 准确 性 造成 影响 。 不 过 ， 对 于 那些 读 取 相同 的 低 分 辨 率 时 标的 函数 ， 这 
些 时 间 开 销 的 差距 仍然 在 10 倍 左 右 。GetSystemTimePreciseAsfileTime() 的 延迟 最 高 ， 而 
这 个 最 高 的 延迟 相对 于 它 的 时 标 占 到 了 大 约 5 多 。 延 迟 问 题 在 慢 速 处 理 器 上 更 严重 。 

5. 非 确定 性 行为 

计算 机 是 带 有 大 量 内 部 状态 的 异常 复杂 的 装置 ， 人 
执行 函数 会 改变 计算 机 的 状态 (例如 高 速 缓存 中 的 内 容 )， 这 样 每 次 重复 执行 指令 时 ，| 

都 会 与 前 一 条 指令 不 同 。 因 此 ， 内 部 状态 的 不 可 控 的 变化 是 测量 中 的 一 个 随机 变化 源 。 
而 且 ， 操 作 系 2 ht 这 样 在 测量 过 程 中 ， 在 处 理 器 和 内 存 总 

上 运行 的 其 他 活动 会 发 生变 化 。 这 会 降低 测量 的 准确 性 。 


操作 系统 甚至 可 能 会 暂停 执 和 J 正在 被 测量 量 将 CPU 时 间 分 配给 其 他 程序 。 但 是 在 
暂停 过 程 中 ， 时 标 计数 器 仍然 在 计时 。 这 会 导致 与 操作 承 统 没 有 将 CPU 时 间 分 配给 其 他 
程序 相 比 ， 测 量 出 的 执行 时 间 变 大 了 。 这 起 种 入 对 测 | 和 造成 更 大 影响 的 随机 变化 源 。 


3.4.3 ”克服 测量 障碍 

那么 ， 这 到 底 有 多 糟糕 呢 ?” 我 们 能 让 计算 机 完全 用 于 计时 吗 ? 我们 需要 做 什么 才能 实现 计 
ee se 在 本 节 中 ， 我 将 对 我 个 人 使 用 3.4.4 节 中 的 stopclass 类 来 为 本 书 测 试 函数 的 
经 验 进 行 总 结 。 
1. 别 为 小 事 烦恼 

好 消息 是 测量 误差 只 要 在 几 个 百分点 以 内 就 足够 指引 我 们 进行 性 能 优化 了 。 换 种 方式 说 ， 
如 果 和 希望 从 性 能 优化 中 获得 线性 改善 效果 ， 误 差 只 需要 有 两 位 有 效 数 字 就 可 以 了 。 即 对 于 
循环 执行 某 个 函数 1000 毫秒 的 实验 来 说 ， 大 约 10 上 毫秒。 我们 将 可 能 的 误差 源 整 理 在 了 表 
3-3 中 。 







































































表 3-3: 各 变化 源 对 在 Windows 上 测量 1 秒 时 间 的 影响 度 











变化 源 影响 度 
时 标 计 数 器 函数 延迟 < 0.00001 
基本 时 钟 稳定 性 < 0.01 
时 标 计 数 器 的 可 用 分 辩 率 <0.1 

















2. 测量 相对 性 能 

优化 后 代码 的 运行 时 间 与 优化 前 代码 的 运行 时 间 的 比率 被 称 为 相对 性 能 。 相 对 性 能 有 众多 
优点 ， 其 一 是 它们 振 消 了 系统 可 变性 ， 因 为 两 次 测量 受到 的 可 变性 影响 是 一 样 的。 同时 ， 
相对 性 能 是 一 个 百分比 ， 比 “多 少 毫 秒 ”这 种 测量 结果 更 加 直观 。 

3. 通过 测量 模块 测试 改善 可 重复 性 
模块 测试 ， 即 使 用 预 录 入 的 输入 数据 进行 的 子 系统 测试 ， 可 以 让 分 析 运 行 或 性 能 测量 变 得 
有 具有 可 重复 性 。 许 多 组 织 都 有 自己 的 模块 测试 扩展 库 ， 还 可 以 为 性 能 调 优 加 入 新 的 测试 。 


对 于 性 能 调 优 ， 有 一 个 常见 的 担忧 :“ 我 的 代码 就 像 一 个 大 的 毛线 球 ， 而 且 我 没有 为 其 编 
写 任 何 测 试用 例 。 我 必须 在 最 新 的 输入 数据 或 最 新 的 数据 库 上 测试 它 的 性 能 ， 但 这 些 数 据 
经 常会 发 生变 化 。 我 得 不 到 一 致 的 或 者 可 重复 的 测量 结果 。 我 应 当 怎 么 办 呢 ?”” 


我 没有 任何 办 法 来 解决 这 种 问题 。 如 有 果 我 用 一 组 可 重复 的 Mock 输入 数据 来 测试 模块 或 是 

子 系统 ， 那 么 在 这 些 测 试 中 反映 出 来 的 性 能 改善 效果 通常 适用 于 最 新 的 测试 数据 。 如 果 我 

通过 一 次 大 型 但 不 可 重复 的 测试 找到 了 热点 函数 ， 那 么 通过 模块 测试 用 例 去 改善 这 些 热点 

函数 ， 所 得 到 的 性 能 提升 效果 通常 也 适用 于 最 新 的 测试 数据 。 每 位 开发 人 员 都 知道 为 什么 

他 们 应 当 构 建 由 松 耦 合 的 模块 组 合 而 成 的 软件 系统 ， 每 位 开发 人 员 都 知道 为 什么 他 们 应 当 

维护 优秀 的 测试 用 例 库 。 优 化 只 是 应 当 这 样 做 的 又 一 个 理由 。 

4. 根据 指标 优化 性 能 

开发 人 员 仍然 有 一 线 希 望 可 以 基于 不 可 预测 的 最 新 数据 优化 性 能 。 这 种 方式 就 是 不 测量 临 

界 响 应 时 间 等 值 ， 而 是 收集 指标 、 代 码 统计 数据 (例如 中 间 值 和 方差 )， 或 是 响应 时 间 的 

指数 平滑 平均 数 。 由 于 这 些 统计 数字 是 从 大 量 的 独立 事件 中 得 到 的 ， 因 此 这 些 数字 的 持续 

改善 表明 对 代码 的 修改 是 成 功 的 。 

以 下 是 在 根据 指标 优化 性 能 时 可 能 遇 到 的 一 些 问 题 。 

。 代码 统计 必须 基于 大 量 事件 才 有 效 。 当 执行 “修改 /测试 /评估 ”这样 的 循环 改善 过 程 时 ， 
与 使 用 固定 的 输入 数据 进行 直接 测量 相 比 ， 根 据 指标 优化 性 能 更 加 耗费 时 间 。 

。 相 比 于 分 析 代 码 和 测量 运行 时 间 ， 收 集 指 标 需要 更 完善 的 基础 设施 。 通 常 都 需要 持久 化 
的 存储 设备 来 存放 统计 数据 。 而 存储 这 些 数据 的 时 间 开 销 非常 大 ， 会 对 性 能 产生 影响 。 
收集 指标 的 系统 必须 设计 得 足够 灵活 ， 可 以 支持 多 种 实验 。 

。 尽管 有 行 之 有 效 的 方法 去 验证 或 是 推翻 基于 统计 的 假设 ,但 是 这 种 方法 需要 开发 人 员 能 
够 妥当 地 应 对 一 些 统 计 的 复杂 性 。 

5. 通过 取 多 次 迭代 的 平均 值 来 提高 准确 性 

在 实验 中 通过 取 多 次 测量 的 平均 值 可 以 提高 单 次 测量 的 准确 性 。 当 开发 人 员 在 循环 中 测量 函数 

调用 的 时 间 ， 或 是 让 程序 处 理 那 些 会 让 它 多 次 执行 某 个 函数 的 输入 数据 时 ， 就 是 在 取 平均 值 。 
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对 一 个 函数 调用 进行 多 次 迭代 测量 的 一 个 优点 是 可 以 抵消 随机 变化 性 。 这 种 情况 下 ， 高 速 
缓存 的 状态 几乎 会 聚集 于 一 个 值 ， 让 我 们 可 以 在 每 次 迭代 测量 的 结果 之 间 进 行 公平 合 理 的 
比较 。 经 过 一 段 足够 长 的 时 间 间 隔 后 ， 随 机 调度 程序 的 行为 对 原 函 数 和 优化 后 函数 的 影响 
是 一 样 的。 尽管 同 样 的 函数 在 男 一 个 更 大 型 程序 中 的 绝对 时 间 是 不 一 样 的， 但 是 通过 测量 
相对 性 能 仍然 能 够 准确 地 反映 出 性 能 改善 的 程度 。 
另外 一 个 优点 是 可 以 使 用 现成 的 但 不 精确 的 时 标 计数 器 。 现 在 ， 计 算 机 的 处 理 速 度 已 经 足 
够 在 1 秒 内 处 理 数 千 次 甚至 数 百 万 次 进 代 了 。 

6. 通过 提高 优先 级 减少 操作 系统 的 非 确定 性 行为 

通过 提高 测量 进程 的 优先 级 ， 可 以 减 小 操作 系统 使 用 CPU 时 间 片 段 去 执行 测量 程序 以 外 
的 处 理 的 几率 。 在 Windows 上 ， 可 以 通过 调用 setPriorityClass() 国 数 来 设置 进程 的 优先 
级 ， 而 SetThreadPriority() 函数 则 可 以 用 来 设置 线程 的 优先 级 。 下 面 这 段 代 码 提高 了 当 
前 进程 和 线程 的 优先 级 : 


SetpriorityClass(GetCurrentProcess(), ABOVE_NORMAL_PRIORITY_CLASS); 
SetThreadPriority(GetCurrentThread(), THREAD_PRIORITY_HIGHEST); 


在 测量 结束 后 ， 通 常 应 当 将 进程 和 线程 恢复 至 正常 优先 级 : 


SetpriorityClass(GetCurrentProcess(), NORMAL_PRIORITY_CLASS); 
SetThreadPriority(GetCurrentThread(), THREAD_PRIORITY_NORMAL); 


7. 非 确定 性 发 生 了 就 克服 它 

我 为 性 能 优化 而 测量 性 能 的 方式 是 极度 非 正 式 的 。 其 中 没有 深奥 的 统计 学 知识 。 我 的 测试 
只 运行 几 秒 钟 ， 而 不 是 几 小 时 。 但 我 认为 并 不 需要 为 这 种 非 正 式 的 方式 感到 愧 次。 这 些 方 
法 可 以 将 测量 结果 转换 为 开发 人 员 可 以 理解 的 相对 于 程序 整体 运行 时 间 的 性 能 改善 结果 ， 
因此 ， 我 知道 我 一 定 是 在 正确 的 优化 道路 上 前 进 。 

如 果 我 以 两 种 不 同 的 方式 运行 相同 的 测量 实验 ， 得 到 的 结果 的 差异 可 能 在 0.1% 至 1% 之 
间 。 这 富 无 疑问 与 我 的 PC 的 初始 状态 不 同 有 关 。 我 没有 办 法 控制 这 些 状 态 ， 因 此 我 并 不 担 
心 。 如 果 差 异 比较 大 ， 我 就 会 让 测试 程序 运行 得 时 间 更 长 一 些 。 由 于 这 也 会 让 我 的 测试 / 调 
试 周期 变 长 ， 所 以 除非 万 不 得 已 ， 否 则 我 不 会 这 么 做 。 

即使 我 发 现 两 次 测量 结果 之 间 的 差异 达到 了 几 个 百分点 ， 在 单 次 测量 中 测量 结果 的 相对 变 
化 看 起 来 仍然 小 于 1%。 也 就 是 说 , 通过 在 相同 的 测试 中 测量 一 个 函数 的 两 种 变化 ， 我 其 至 
能 看 出 发 生 了 相当 微妙 的 变化 。 


我 会 尽量 在 一 台 没 有 播放 视频 、 升 级 Java 或 是 压缩 大 文件 的 “安静 ”的 计算 机 上 测量 时 
间 。 在 测量 过 程 中 ， 我 也 会 尽量 不 移动 鼠标 或 是 切换 窗口 。 特 别 是 当 PC 中 只 有 一 个 处 理 
器 时 ， 这 一 点 非常 重要 。 但 是 当 使 用 现代 多 核 处 理 器 时 ， 我 发 现 即使 我 忘记 了 上 面 这 些 往 
意 事 项 ， 测 量 结果 也 不 会 有 什么 大 的 变化 。 

如 果 在 测量 时 间 时 调用 了 某 个 函数 10 000 次 ， 这 段 代 码 和 相关 的 数据 会 被 存储 在 高 速 缓存 
中 。 当 为 一 个 实时 系统 测量 最 差 情况 下 的 绝对 时 间 时 ， 这 会 有 影响 。 但 是 现在 我 是 在 一 个 
内 核 本 身 就 充满 了 非 确 定性 的 系统 上 测量 相对 时 间 。 而 且 ， 我 所 测试 的 函数 是 我 的 分 析 器 
指出 的 热点 函数 。 因 此 ， 即 使 是 当 正 式 版 本 在 运行 时 ， 它 们 也 会 被 缓存 于 高 速 缓 存 中 。 这 
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样 ， 返 代 测 试 就 确 确实 实地 重 现 了 真实 运行 状态 。 








妇 


让 





果 修 改 后 的 函数 看 起 来 快 了 了 1%， 那么 通常 不 值得 进行 修改 。 根 据 阿 姆 达尔 定律 























外 该 函 
数 优 化 结果 对 整个 程序 的 运行 时 间 的 贡献 会 变 得 微不足道 。 速 度 提 高 10% 是 临界 值 


， 而 速 


度 提高 100% 则 对 缩短 整个 程序 的 运行 时 间 有 非常 大 的 帮助 。 只 进行 有 明显 效果 的 性 能 改 





[a 


善 可 以 将 开发 人 员 从 对 方法 论 的 担忧 中 解放 出 来 。 


3.4.4 创建 stopwatch 类 


我 会 月 
方式 非常 像 一 块 机 械 秒表 。 初 始 








计时 ， 
计时 结果 。 














一 个 stopwatch 类 来 测量 程序 中 部 分 代码 的 执行 时 间 并 分 析 代 码 。 这 个 类 的 工作 
七 秒表 或 是 调用 它 的 start() 成 员 函 数 后 ， 秒 表 将 开始 
调用 秒表 的 stop() 成 员 函 数 或 是 销毁 秒表 类 的 实例 后 ， 秒 表 将 停止 计时 并 显示 出 





编写 一 个 stopwatch 类 并 不 难 ， 网 上 也 有 很 多 现成 的 代码 。 代 码 清单 3-3 展示 了 我 所 使 用 
的 stopwatch 类 。 








代码 清单 3-3 ”stopwatch 类 


template <typename T> class basic stopwatch : T{ 


typedef typename T BaseTimer; 


public: 


// 创建 一 个 秒表 ,开始 计时 一 项 程序 活动 (可 选 ) 
explicit basic_stopwatch(booL start); 
explicit basic_stopwatch(char const* activity = "Stopwatch", 
bool start=true); 
basic_stopwatch(std: :ostream& log, 
char const* activity="Stopwatch", 
bool start=true); 


// 停止 并 销毁 秒表 


~basic_stopwatch(); 


// 得 到 上 一 次 计时 时 间 ( 上 一 次 停止 时 的 时 间 ) 


unsigned LapGet() const; 











// 判断 ;如 果 秒 表 正 在 运行 , 则 返回 true 
bool IsStarted() const; 























// 显示 累计 时 间 , 一 直 运 行 ,设置 /返回 上 次 计时 时 间 


unsigned Show(char const* event="show"); 


























// 启动 (重启 ) 秒 表 ， 设置 /返回 上 次 计时 时 间 


unsigned Start(char const* event_namee="start"); 





// 停止 正在 计时 的 秒表 ， 设 置 /返回 上 次 计时 时 间 


unsigned Stop(char const* event name="stop"); 








private:  // 成 员 变量 


出 


char const* m_activity; // "activity" 字 符 串 
区 ee m_lap; // 上 次 计时 时 间 ( 上 一 次 停止 时 的 时 间 ) 
std::ostream& m_log; // 用 于 记录 事件 的 流 











这 上段 代码 只 是 重新 定义 了 类 。 为 了 使 性 能 最 优化 ， 成 员 函 数 将 会 被 内 联展 开 。 

stopwatch 的 类 型 模板 参数 T 的 值 的 类 是 一 个 更 加 简单 的 计时 器 ， 它 提供 了 依赖 于 操作 系 
统 和 C++ 标准 的 函数 去 访问 时 标 计数 器 。 我 编写 过 多 个 版 本 的 TimerBase 类 ， 去 测试 各 
种 不 同 的 时 标 计数 器 的 实现 方式 。 在 有 些 现代 C++ 处 理 器 上 , T 的 值 的 类 可 以 使 用 C++ 
<chrono> 库 ， 或 是 可 以 直接 从 操作 系统 中 得 到 时 标 。 代码 清单 3-4 展示 的 TimerBase 类 使 


月 
































明了 在 C++11 及 之 后 的 版 本 中 提供 的 C++ <chrono> 库 。 


代码 清单 3-4 使 用 了 <chrono> 的 TimerBase 类 


# include <chrono> 

Using namespace std::chrono; 
class TimerBase { 

public: 


中 


// 清除 计时 器 


TimerBase() : m_ start(system clock::time point::min()) { } 


// 清除 计时 器 
void Clear() { 
m_start = system clock::time point::min(); 


和 


// 如 果 计 时 器 正在 计时 , 则 返回 true 
bool IsStarted() const { 
return (m_start.time since epoch() != system clock::duration(0)); 

















} 


// 启动 计时 器 
void Start() { 
m_start = system clock::now(); 


// 得 到 自 计 时 开始 后 的 毫秒 值 
unsigned long GetMs() { 
if (IsStarted()) { 
system clock::duration diff; 
diff = system clock::now() - m_start; 
return (unsigned)(duration cast<milliseconds>(diff).count()); 


} 

return 0; 
} 
private: 


system clock::time point m_ start; 


这 种 实现 方式 的 优点 是 在 不 同 操作 系统 之 间 具 有 可 移植 性 ， 但 是 它 需 要 用 到 C++11。 
代码 清单 3-5 中 的 TimerBase 类 与 这 个 类 的 功能 相同 ， 不 过 其 中 使 用 的 是 在 Windows 上 和 
Linux 上 都 可 以 使 用 的 clock() 函数 。 


代码 清单 3-5 ”使 用 了 clock() 的 TimerBase 类 


class TimerBaseClock { 
public: 






































// 清除 计时 器 
TimerBaseClock() { m_start = -1; } 

// 清除 计时 器 

void Clear() { m_start = -1; } 

// 如 果 计 时 器 正在 计时 , 则 返回 true 

bool IsStarted() const { return (m_start != -1); } 
// 启动 计时 器 

void Start() { mstart = clock(); } 

// 得 到 自 计 时 开始 后 的 毫秒 值 




















unsigned long GetMs() { 
clock_t now; 
if (IsStarted()) { 
now = clock(); 
clock t dt = (now - m_start); 
return (unsigned long)(dt * 1000 / CLOCKS_PER_SEC); 
} 
return 0; 
} 
private: 
clock_t m_start; 


}; 


这 种 实现 方式 的 优点 是 在 不 同 C++ 版 本 和 不 同 操作 系统 之 间 具 有 可 移植 性 ， 缺 点 是 在 
Linux 上 和 Windows 上 ，clock() 函数 的 测量 结果 略 有 不 同 。 


代码 清单 3-6 中 的 TimerBase 类 可 以 工作 于 旧版 本 的 Windows 上 和 Linux 上 。 如 果 是 在 
Windows 上 ， 那 么 还 必须 显 式 地 提供 gettimeofday() 国 数 ， 为 它 既 不 属于 Windows 
API， 也 不 属于 C 标准 库 。 


代码 清单 3-6 使 用 了 gettimeofday() 的 TimerBase 


# include <chrono> 
Using namespace std::chrono; 
class TimerBaseChrono { 
public: 
// 清除 计时 器 
TimerBaseChrono() : 
m_start(system clock::time point::min()) { 




















} 


// 清除 计时 器 
void Clear() { 
m_start = system clock::time point::min(); 


} 


// 如 果 计 时 器 正在 计时 , 则 返回 true 
bool IsStarted() const { 
return (m_start != system clock::time point::min()); 











// 启动 计时 器 
void Start() { 
m_start = std::chrono::system clock: :now(); 


} 


// 得 到 自 计 时 开始 后 的 毫秒 值 
unsigned long GetMs() { 
if (IsStarted()) { 
system clock::duration diff; 
diff = system clock::now() - m_start; 
return (unsigned) 
(duration_cast<milliseconds>(diff).count()); 


} 


return 0; 


} 
private: 
std: :chrono::system clock::time point m_start; 
下 
这 种 实现 方式 在 不 同 的 C++ 版 本 和 不 同 操作 系统 之 间 具 有 可 移植 性 。 但 当 运行 于 Windows 
上 时 ， 需 要 实现 gettimeofday() 国 数 。 


stopwatch 类 的 最 简单 的 用 法 用 到 了 RAI (Resource Acquisition Is Initialization， 资 源 获 取 
就 是 初始 化 `) 惯用 法 。 程 序 会 在 由 大 括号 包围 的 语句 块 中 的 开头 处 初始 化 stopwatch 类 ， 
stopwatch 类 的 默认 操作 是 开始 计时 。 当 stopwatch 在 语句 块 结束 前 被 析 构 时 ， 它 会 输出 最 
终 计时 结果 。 程 序 可 以 在 执行 过 程 中 通过 调用 stopwatch 类 的 show() 成 员 函 数 输出 中 间 计 
时 结果 。 这 样 ， 开 发 人 员 就 可 以 只 使 用 一 个 计时 器 来 分 析 几 个 互相 联系 的 代码 块 。 例 如 : 


{ 












































Stopwatch sw("activity"); 
DoActivity(); 
} 


这 段 代 码 将 会 在 标准 输出 中 打印 出 以 下 结果 : 


activity: start 
activity: stop 1234mS 


stopwatch 在 运行 时 不 会 产生 间接 开销 。 开 始 计时 和 停止 计时 的 延迟 包括 了 获取 当前 时 间 
的 系统 调用 的 开销 ， 如 果 调 用 了 show() 成 员 函 数 输出 计时 结果 ， 那 么 还 要 加 上 产生 输出 的 
开销 。 如 果 是 测试 那些 需要 花费 数 十 毫秒 或 者 更 长 时 间 的 任务 ， 那 么 这 个 延迟 可 以 忽略 。 
但 是 如 果 开发 人 员 试 图 测试 微 秒 级 别 的 活动 的 时 间 ， 那 么 间接 开销 的 比重 将 会 显著 增 大 ， 
测量 结果 的 准确 度 也 因此 会 降低 。 

测量 运行 时 间 的 最 大 缺点 可 能 是 需要 直觉 和 经 验 去 解释 这 些 结果 。 在 通过 多 次 测量 缩小 了 
查找 热点 代码 的 范围 后 ， 开 发 人 员 必 须 接着 检查 代码 或 者 进行 实验 找 出 和 移 除 热点 代码 。 
检查 代码 时 需要 依靠 开发 人 员 自 己 的 经 验 或 是 本 书 中 概述 的 启发 式 规则 。 这 些 规则 的 优点 
是 可 以 帮助 你 找 出 那些 长 时 间 运 行 的 代码 ， 缺 点 则 是 无 法 明确 地 指出 最 热点 的 代码 。 

























































































注 5: 这 是 C++ 等 编程 语言 常用 的 管理 资源 、 避 免 内 存 泄露 的 方法 。 它 保证 在 任何 情况 下 ， 使 用 对 象 时 先 
构造 对 象 ， 最 后 析 构 对 象 。 一 一 译 者 注 




















专业 优化 提示 


开发 人 员 并 非 总 是 能 够 测量 那些 在 main() 获取 程序 控制 权 前 或 是 在 main() 退出 后 执 

行 的 活动 的 时 间 。 如 果 在 全 局 范围 内 有 许多 类 会 被 初始 化 ， 这 可 能 会 带 来 问题 。 当 在 

0 中 含有 许多 全 局 变量 时 ， 程 序 在 main() 外 消耗 的 时 间 可 能 会 变 成 间接 成 本 。 
见 12.3.6 节 中 关于 程序 启动 的 更 多 内 容 。 











3.4.5 ”使 用 测试 套件 测量 热点 函数 


一 旦 通过 分 析 器 或 是 运行 时 分 析 找 出 了 一 个 候选 的 待 优化 函数 ， 一 种 简单 的 改善 它 的 方法 
是 构建 一 个 测试 套件 ， 在 其 中 多 次 调用 该 函数 。 这 样 可 以 将 该 函数 的 运行 时 间 增 大 为 一 
个 可 测量 的 值 ， 同 时 还 可 以 抵消 因 后 台 任务 、 上 下 文 切换 等 对 运行 时 间 造 成 的 影响 。 采 
用 “修改 - 编译 - 运行 ”的 选 代 方式 去 独立 地 测量 一 个 函数 ， 会 比 采用 “修改 -编译 - 运 
行 "， 然 后 运行 分 析 器 并 解析 它 的 输出 更 快 。 本 书 中 的 许多 例子 都 会 使 用 这 种 技巧 。 

这 个 计时 测试 套件 (代码 清单 3.7) 只 是 先 调用 了 stopwatch， 然 后 循环 中 调用 了 10 000 次 
需要 被 测量 的 函数 。 

代码 清单 3-7 “计时 测试 套件 


typedef unsigned counter 七 ; 
counter_t const iterations = 10000; 
































{ 
Stopwatch sw("function to_ be _ timed()"); 
for (counter t i = 0; i < iterations; ++i) { 
result = function to_be timed(); 
} 
} 


迭代 次 数 需 要 凭 经 验 人 和 估计。 如果 stopwatch 使 用 的 时 标 计数 器 的 有 效 分 辨 率 是 大 约 10 毫 
秒 ， 那 么 测试 套件 在 桌面 处 理 器 上 的 运行 时 间 应 当 在 几 百 到 几 千 毫秒 。 

这 里 ， 我 使 用 了 counter 七 来 灰 代 unsigned 或 unsigned Long， 这 是 因为 对 于 一 些 非常 短 
小 的 函数 ， 该 变量 的 类 型 可 能 需要 是 64 位 unsigned long Long。 相 比 于 回 过 头 来 重新 修改 
所 有 类 型 名 称 ， 我 更 习惯 于 使 用 typedef。 这 是 对 优化 过 程 自身 的 一 种 优化 。 

最 外 层 的 一 组 大 括号 非常 重要 ， 因 为 它 定义 了 sw (也 就 是 Stopwatch 类 的 实例 ) 的 存在 范 
围 。 由 于 stopwatch 使 用 了 RAI 惯用 法 ，sw 的 构造 函数 会 得 到 第 一 次 时 标 计数 值 ， 而 它 
的 析 构 函数 则 会 得 到 最 后 一 次 时 标 计 数值 并 将 结果 放 入 到 标准 输出 流 中 。 


3.5 评估 代码 开销 来 找 出 热点 代码 


经 验 告诉 我 分 析 代 码 和 测量 运行 时 间 是 帮助 找 出 需要 优化 的 代码 的 两 种 有 效 方法 。 分 析 器 
会 指出 某 个 函数 被 频繁 地 调用 了 或 是 在 程序 总 运行 时 间 中 所 占 的 比率 很 大 。 但 它 不 太 可 能 
指出 某 个 具体 的 C++ 语句 可 以 优化 ， 或 是 告诉 你 “是 马 斯 塔 德 上 校 在 温室 用 铅 水 管 杀 死 




























































































的 布 菜 克 博士 ”。 分 析 代 码 的 成 本 也 可 能 是 非常 高 的 。 测 
慢 ， 但 不 会 指出 其 中 存在 的 具体 问题 。 

开发 人 员 下 一 步 需 要 做 的 是 ， 对 指出 的 代码 块 中 的 每 条 语句 的 开销 进行 评估 。 这 一 步 就 像 
是 证 明 一 条 定理 一 样 ， 并 不 需要 太 精 确 。 大 多 数 情况 下 ， 只 需 大 致 观察 一 下 这 些 语 句 就 能 
得 到 它们 的 开销 ， 然 后 从 中 找 出 性 能 开销 大 的 语句 和 语法 结构 。 


3.5.1 评估 独立 的 C++ 语句 的 开销 


正如 2.2.1 节 中 所 讲述 的 ， 访 癌 内 存 的 时 间 开 销 远 比 执行 其 他 指令 的 开销 大 。 在 烤箱 和 咖 
啡 机 所 使 用 的 简单 微 处 理 器 中 ， 执 行 一 条 指令 所 花费 的 时 间 大 致 包含 从 内 存 中 读 取 指 令 的 
每 个 字 节 所 需要 的 时 间 ， 加 上 读 取 指令 的 输入 数据 所 需 的 时 间 ， 再 加 上 写 指令 结果 的 时 
间 。 相 比 之 下 ， 隐 藏 于 内 存 访问 时 间 之 下 的 解码 和 执行 指令 的 时 间 就 显得 微不足道 了 。 


在 桌面 级 微 处 理 器 上 ， 情 况 就 更 加 复杂 了 。 许 多 处 于 不 同 阶段 的 指令 会 被 同时 执行 。 读 取 
指令 流 的 开销 可 以 忽略 。 不 过 ， 访 问 指令 所 操作 的 数据 的 开销 则 无 法 名 略 。 正 是 由 于 这 个 
原因 ， 读 写 数据 的 开销 可 以 近似 地 看 作 所 有 级 别 的 微 处 理 器 上 的 执行 指令 的 相对 开销 。 

有 一 条 有 效 的 规则 能 够 帮助 我 们 评估 一 条 C++ 语句 的 开销 有 多 大 ， 那 就 是 计算 该 语句 对 
内 存 的 读 写 次 数 。 例 如 ， 有 一 条 语句 a = b + c;， 其 中 a、b 和 c 都 是 整数 ，b 和 c 的 值 
必须 从 内 存 中 读 取 ， 而 且 它 们 的 和 必须 写 入 至 内 存 中 的 位 置 a。 因 此 ， 这 条 语句 的 开销 是 
三 次 内 存 访问 。 这 个 次 数 不 依 赖 于 微 处 理 器 的 指令 集 。 这 是 语句 不 可 避免 的 、 必 然 会 发 生 
的 开销 。 
再 比如 ,，r = *p + a[li]; 这 条 语句 访问 内 存 的 次 数 如 下 : 一 次 访问 用 于 读 取 i， 一 次 读 取 
a[i]， 一 次 读 取 p， 一 次 读 取 *p 所 指向 的 数据 ， 一 次 将 结果 写 入 至 r。 也 就 是 说 , 总 共 进 
行 了 5 次 访问 。7.2.1 节 中 讲解 了 函数 调用 访问 内 存 的 开销 。 

理解 这 是 一 条 局 发 式 规 则 是 非常 重要 的 。 在 实际 的 硬件 中 ， 获 取 执 行 语句 的 指令 会 发 生 额 
外 的 内 存 访问 。 不 过 ， 由 于 这 些 访问 是 顺序 的 ， 所 以 它们 可 能 非常 高 效 。 而 且 这 些 额 外 的 
开销 与 访问 数据 的 开销 是 成 比例 的 。 编 译 器 可 能 会 在 优化 时 通过 复 用 之 前 的 计算 或 是 发 挥 
代码 静态 分 析 的 优势 来 省 略 一 些 内 存 访问 。 单 位 时 间 内 的 开销 也 取决 于 C++ 语句 要 访问 的 
内 容 是 否 在 高 速 缓存 中 。 

但 是 其 他 因素 是 等 价 的 ， 有 影响 的 是 访问 语句 要 用 到 的 数据 需要 多 少 次 读 写 内 存 。 这 条 局 
发 式 规则 并 不 完美 ， 但 这 是 所 有 你 能 做 的 了 ， 除 非 你 想 去 查看 编译 器 输出 的 见长 无 味 、 收 
效 其 微 的 汇编 代码 。 


3.5.2 ”评估 循环 的 开销 


由 于 每 条 C++ 语句 都 只 会 进行 几 次 内 存 访问 ,通常 情况 下 热点 代码 都 不 会 是 一 条 单独 的 
语句 ， 除 非 受 其 他 因素 的 作用 ， 让 其 频繁 地 执行 。 这 些 因素 之 一 就 是 该 语句 出 现在 了 循环 
中 。 这 样 ， 合 计 开销 就 是 该 语句 的 开销 乘 以 该 语句 被 执行 的 次 数 了 。 
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量 时 间 也 可 能 会 表明 一 大 段 代 码 很 














































































































注 6: 出 自 牛 津 大 学 公开 课 “ 犯 罪 小 说 ”第 1 集 “ 寻 凶 和 死尸 "。 一 一 译 者 注 














如 果 你 很 幸运 ， 可 能 会 偶然 找到 这 样 的 代码 。 分 析 器 可 能 会 指出 一 条 单独 的 语句 被 执行 了 
100 万 次 ,或 者 其 他 的 热点 函数 包含 以 下 这 样 的 循环 : 


for (int i=1; i<1000000; ++i) { 
do_something_expensive(); 
if (mostly_ true) { 
do_more_stuff(); 
even_more(); 


} 
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这 个 循环 中 的 语句 很 明显 会 被 执行 100 万 次 ， 因 此 它 是 热点 语句 。 看 起 来 你 需要 花 点 精力 
去 优化 。 
1. 评估 桩 套 循环 中 的 循环 次 数 
当 一 个 循环 被 舱 套 在 另 一 个 循环 里 面 的 时 候 ， 代 码 块 的 循环 次 数 是 内 层 循 环 的 次 数 乘 以 外 
层 循 环 的 次 数 。 例 如 : 

for (int i=0; i<100; ++i) { 


for (int j=0; j<50; ++j) { 
fiddle(a[i][j]); 

















} 
在 这 里 ， 代 码 块 的 循环 次 数 是 100*50=5000。 
上 面 的 代码 块 非常 直接 。 但 是 实际 上 这 里 可 能 有 无 数 种 变化 。 例 如 ， 当 进行 数学 运算 时 ， 
在 有 些 重要 的 情况 下 会 对 三 角 抢 阵 进行 循环 计算 。 而 且 有 时 候 ， 代 码 编写 得 非常 糟糕 ， 需 
要 花费 很 大 气力 才能 看 清 嵌 套 循环 的 轮廓 。 
嵌 套 循环 可 能 并 非 一 眼 就 能 看 出 来 。 如 果 一 个 循环 调用 了 一 个 函数 ， 而 这 个 函数 中 又 包含 
了 另外 一 个 循环 ， 那 么 内 层 循 环 就 是 先 套 循环 。 正 如 我 们 稍 后 会 在 7.1.8 市 中 看 到 的 ， 有 
时 在 外 层 循环 中 重复 地 调用 函数 的 开销 也 是 可 以 消除 的 。 
内 存 循 环 可 能 被 胜 入 在 标准 库 函 数 中 ， 特 别 是 处 理 字符 串 或 字符 的 IO 函数 。 如 果 这 些 
函数 被 重复 调用 的 次 数 非常 多 ， 那 么 可 能 值得 去 重新 实现 标准 函数 库 中 的 函数 来 回避 调 
用 开销 。 
2. 评估 循环 次 数 为 变量 的 循环 的 开销 
不 是 所 有 循环 中 的 循环 次 数 都 是 很 明确 的 。 许 多 循环 处 理会 不 断 重复 直至 满足 某 个 条 件 为 
止 ， 比 如 有 些 循环 会 重复 地 处 理 字符 ， 直 至 找到 空格 为 止 ， 还 有 些 循环 则 会 重复 地 处 理 数 
字 ， 直 到 遇 到 非 数 字 为 止 。 这 种 循环 的 重复 次 数 也 是 可 以 估算 出 来 的 。 当 然 ， 只 需要 大 致 
地 估算 一 下 即 可 ， 例 如 每 个 数字 的 平均 位 数 是 5， 或 是 每 个 单词 的 平均 字母 数 是 6。 估 算 
的 目的 是 找 出 可 能 需要 优化 的 代码 。 
3. 识别 出 隐 式 循环 
响应 事件 的 程序 (例如 Windows UI 程序 ) 在 最 外 层 都 会 有 一 个 隐 式 循环 。 这 个 循环 甚至 
在 程序 中 是 看 不 到 的 ， 因 为 它 被 隐藏 在 了 框架 中 。 如 果 这 个 框架 以 最 大 速率 接收 事件 的 
话 ， 那 么 每 当 事 件 处 理 器 取得 程序 控制 权 ， 或 是 在 事件 分 发 前 ， 抑 或 是 在 事件 分 发 过 程 中 
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都 会 被 执行 的 代码 ， 以 及 最 频繁 地 被 分 发 的 事件 中 的 代码 都 可 能 是 热点 代码 。 
4. 识别 假 循环 
不 是 所 有 的 while 或 者 do 语句 都 是 循环 语句 。 我 就 曾经 遇 到 过 使 用 do 语句 帮助 控制 流程 
的 代码 。 下 面 这 段 示例 代码 还 有 更 好 的 实现 方式 ， 不 过 使 用 了 更 复杂 的 if-then-else 逻 
辑 的 话 ， 这 种 惯用 法 就 有 其 用 武之 地 了 。 下 面 这 个 “循环 ”只 会 被 执行 一 次 。 当 它 遇 到 
while(0) 后 就 会 退出 : 
do { 
if (!operation1()) 
break; 
if (!operation2(x,y,z)) 


break; 
} while(0); 


这 种 惯用 法 也 时 常 被 用 于 将 儿 条 语句 “打包 ”为 C 风格 的 宏 。 


3.6 ”其 他 找 出 热点 代码 的 方法 


如 果 开 发 人 员 熟 悉 需 要 优化 的 代码 ， 可 以 选择 仅 赁 直觉 去 推测 影响 程序 整体 运行 时 间 的 代 
码 块 在 哪里 ， 然 后 做 实验 去 验证 对 这 些 代 码 的 修改 是 否 可 以 提高 程序 整体 性 能 。 

我 不 建议 选择 这 种 方法 ， 除 非 整个 项 目 只 有 你 一 个 人 。 通 过 使 用 分 析 器 或 是 计时 器 分 析 代 
码 ， 开 发 人 员 可 以 向 同事 和 经 理 展示 他 们 在 性 能 优化 工作 中 取得 的 进展 。 如 果 你 仅 赁 直觉 
进行 优化 ， 也 不 发 表 结果 ， 有 时 甚至 即使 你 发 表 了 结果 ， 团 队 成 员 也 会 质疑 你 的 方法 ， 使 
你 无 法 专心 于 你 的 工作 。 他 们 也 应 该 如 此 。 这 是 因为 他 们 分 不 清 你 到 底 是 在 是 用 你 高 度 专 
业 的 直觉 进行 优化 还 是 只 是 在 碰 运 气 。 










































































优化 战争 故事 

我 个 人 算 借 经 验 和 直觉 进行 优化 的 经 历 是 五 味 杂 陈 的 。 我 曾经 将 一 个 在 启动 时 会 失去 
响应 的 交互 式 游戏 应 用 程序 的 启动 时 间 从 让 人 无 法 接受 的 16 秒 减 少 到 了 大 约 4 秒 。 不 
过 不 幸 的 是 ， 我 当时 并 没有 保留 原来 代码 的 基准 测量 值 。 我 的 经 理 认为 我 只 是 将 启动 
时 间 从 8 秒 减少 到 了 4 秒 ， 因 为 这 些 数据 是 我 唯一 能 展示 给 他 看 的 。 然 后 这 位 “迷信 
证 据 ” 的 经 理 使 用 分 析 器 分 析 了 原来 的 代码 ， 并 将 结果 打印 给 了 我 。 非 常 有 趣 的 是 ， 
通过 他 的 分 析 找 出 的 需要 优化 的 函数 与 我 任 直 觉 找 出 的 函数 几乎 一 样 。 不 过 ， 我 失去 
了 作为 优化 专家 的 可 信 性 ， 因 为 我 并 没有 以 一 种 有 理 有 据 的 方式 完成 这 项 任务 。 











3.7 小 结 


。 必须 测量 性 能 。 

。 做 出 可 测试 的 预测 并 记录 预测 。 

。 记录 代码 修改 。 

。 如 果 每 次 都 记录 了 实验 内 容 ， 那 么 就 可 以 快速 地 重复 实验 。 
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一 个 程序 会 花费 90% 的 运行 时 间 去 执行 10% 的 代码 。 
只 有 正确 且 精 确 的 测量 才 是 准确 的 测量 。 

分 辩 率 不 是 准确 性 。 
在 Windows 上 ，clock() 函数 提供 了 可 靠 的 毫秒 级 的 时 钟 计时 功能 。 在 Windows 8 和 之 
后 的 版 本 中 ,GetSystemTimePreciseAsfileTime() 提供 了 亚 微 秒 级 的 计时 功能 。 

只 进行 有 明显 效果 的 性 能 改善 ， 开 发 人 员 就 无 需 担忧 方法 论 的 问题 。 

计算 一 条 C++ 语句 对 内 存 的 读 写 次 数 ， 可 以 估算 出 一 条 C++ 语句 的 性 能 开销 。 
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优化 字符 串 的 使 用 ， 案例 研究 


只 有 少数 人 才能 触摸 到 魔法 琴 统 (string)， 
可 是 聘 噪 的 名 声 却 企图 击败 他 们 ; 
翡 诅 于 那些 从 来 都 不 歌唱 的 人 们 ， 
死亡 时 却 要 带 着 他 们 的 音乐 陪葬 | 
一 一 奥利弗 . 温 德尔 霍 姆 斯 ，“ 无 声 ”(1858) 


C++ 的 std::string 类 模板 是 C++ 标准 库 中 使 用 最 广泛 的 特性 之 一 。 例 如 ， 谷 歌 
Chromium 开发 者 论坛 (https://groups.google.com/a/chromium.org/forum/#!Imsg/chromium- 
dewEUqoIz2iFU4/kPZ5ZKOK3gsEJ) 上 的 一 篇 帖子 中 提 到 ,“ 在 Chromium 中 ，std::string 
对 内 存 管理 器 的 调用 次 数 占 到 了 内 存 管 理 器 被 调用 的 总 次 数 的 一 半 ”。 只 要 操作 字符 串 的 





代码 会 被 频繁 地 执行 ， 那 么 那里 就 有 优化 的 用 武之 地 。 本 章 将 会 通过 讨论 “优化 字符 
理 ” 来 阐释 优化 中 反复 出 现 的 主题 。 


4.1 为 什么 字符 串 很 麻烦 


二 
疆 





处 


字符 串 在 概念 上 很 简单 ， 但 是 想 要 实现 高 效 的 字符 串 却 非常 微妙 。 由 于 std: :string 中 特 
性 的 特定 组 合 的 交互 方式 ， 使 得 实现 高 效 的 字符 串 几 乎 不 可 能 。 的 确 ， 在 编写 本 书 时 ， 几 

















种 流行 的 编译 器 曾经 实现 的 std: :string 在 许多 方面 都 不 符合 标准 。 


而 且 ， 为 了 能 够 跟 上 C++ 标准 的 变化 ，std: :string 的 行为 也 在 不 断 地 变化 。 这 意味 着 ， 

















注 1: 奥利弗 ， 温 德尔 。 霍 姆 斯 是 美国 医生 、 著 名 作家 ， 被 誉 为 美国 19 世纪 最 佳 诗 人 之 一 。 





























更 快速 、 更 稳定 的 Web 浏览 体验 。 





译 者 注 


译 者 注 
注 2: Chromium (http://www.chromium.org/Home) 是 一 个 开源 的 浏览 器 项 目 ， 虽 在 为 所 有 用 户 提 供 更 安全 、 


在 C++98 编译 器 中 实现 的 符合 标准 的 std::string 的 行为 可 能 与 在 C++11 之 后 实现 的 
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std: :string 的 行为 是 不 同 的 。 


字 答 串 的 某 些 行 
的 ， 它 们 在 表达 式 


4.1.1 


库 国 数 (strcat()、 





此 无 论 如 何 ， 字 符 


为 会 增加 使 用 它们 的 开销 ， 





中 的 行为 与 值 














串 都 是 性 能 优化 热点 。 当 一 
了 一 个 新 的 值 后 ， 动 态 分 配 的 存储 空间 会 被 自动 释放 。 与 下 


字符 串 是 动态 分 配 的 


字符 串 之 所 以 使 用 起 来 很 方便 ， 是 因 
strcpy() 等 ) 工作 于 
字符 串 被 设计 为 动态 分 配 的 。 相 比 于 C++ 的 大 多 数 j 








百 











为 它们 会 为 了 保存 内 容 而 自动 
定 长 度 的 字符 数组 上 。 


这 一 点 与 实现 方式 无 关 。 字 符 串 是 动态 分 配 
相似 ， 而 且 实 现 它 们 需要 大 量 的 复制 操作 。 


增长 。 相 比 之 下 ，C 的 
为 了 实现 这 种 灵活 性 ， 
其 他 特性 ， 动 态 分 配 内 存 耗 时 耗 力 。 因 














个 字符 串 变 量 


超出 了 其 定义 范围 或 是 被 赋予 
看 这 段 代 码 展示 的 需要 为 动态 




















分 配 的 C 风格 的 字符 数组 手动 释放 内 存 相 比 ， 这 样 无 疑 方便 了 许多 。 


char* p = (char*) malloc(7); 
"string"); 


strcpy(p， 


free(p); 


尽管 如 此 ， 但 字符 











作 ， 如 在 字符 串 后 
缓冲 区 的 大 小 。 妆 








为 了 外 





致 ， 而 是 比 该 数值 
它 增长 一 倍 。 
a 

















加 字符 或 是 字符 串 的 开销 近似 于 一 
的 实现 策略 是 字符 串 缓 冲 区 增 大 为 原来 的 两 倍 ， 


pt 
中 


空间 。 如 果 字 符 














区 中 。 











串 内 部 的 字符 缓冲 





EE 新 分 配 内 存 的 开销 “分 期 付款 ”， 








区 的 大 小 仍然 是 固定 的 。 任 何 会 使 字符 串 变 长 的 操 
面 再 添加 一 个 字符 或 是 字符 串 ， 都 可 能 会 使 字符 串 的 长 度 超出 它 内 部 的 
发 生 这 种 情况 时 ， 操 作 会 从 内 存 管理 局 中 获取 一 
符 串 复制 到 新 的 缓冲 


E 让 字符 串 增长 时 重 
巧 。 字 符 串 向 内 存 管 理 器 申请 的 字符 缓冲 











块 新 的 缓冲 区 ， 并 将 字 








std::string 使 用 了 一 个 小 技 


区 的 大 小 并 非 与 字符 串 所 需 存 储 的 字符 数 完全 一 
更 大 。 例 如 ， 有 些 字符 串 的 实现 方式 所 申请 的 字符 缓冲 区 的 大 小 是 











需要 





倍 。 这 样 ， 





区 .。 





空间 中 ， 有 一 半 都 是 未 使 用 的 。 


4.1.2 字符 串 就 是 值 


在 赋值 语句 和 表达 式 中 ， 字 符 串 
样 的 数值 常量 是 值 。 可 以 将 一 个 新 值 赋予 给 一 


值 。 例 如 : 


nt 1 


i 
i 
j 
i 


将 一 个 字符 串 赋 值 


3; Wy i 的 值 是 3 
i; // j 的 值 也 是 3 
5; // ii 的 值 现在 是 5, 但 是 j 的 值 仍然 是 3 


串 的 工作 方式 是 一 档 


给 





在 下 一 次 申 





另 一 个 字符 
份 它们 所 保存 的 内 容 的 私有 副本 一 样 : 











个 常量 ， 








请 新 的 字符 缓冲 区 之 前 ， 字 符 串 的 容量 足够 允许 
一 次 某 个 操作 需要 增长 字符 串 时 ， 现 有 的 缓冲 区 足够 存储 新 的 内 容 ， 
这 个 小 技巧 带 来 的 好 处 是 随 着 字符 串 变 
而 其 代价 则 是 





可 以 
在 字符 串 后 面 再 添 
了 一 些 未 使 用 的 内 存 
那么 在 该 字符 串 的 存储 











得 更 长 ， 
字符 串 携 带 








的 行为 与 值 是 一 样 的 (请 参 见 6.1.3 节 )。 2 和 3.14159 这 
个 变量 ， 但 是 改变 这 个 变量 并 不 会 改变 这 个 





的， 就 仿佛 每 个 字符 串 变 量 都 拥有 一 








邮 


std::string si, s2; 

s1 = "hot"; // si 是 "hot" 

s2 = sil; // s2 是 "hot" 

s1[0] = 'n'; // s2 仍 然 是 "hot" ,但 sl 变 为 了 "not' 


由 于 字符 串 就 是 值 ， 因 此 字符 串 表 达 式 的 结果 也 是 值 。 如 果 你 使 用 s1 = s2 + s3 + s4; 这 
条 语句 连接 字符 串 ， 那 么 s2 + s3 的 结果 会 被 保存 在 一 个 新 分 配 的 临时 字符 串 中 。 连 接 s4 
后 的 结果 则 会 被 保存 在 另 一 个 临时 字符 串 中 。 这 个 值 将 会 取代 sl 之 前 的 值 。 接 着 ， 为 第 一 
个 临时 字符 串 和 sl 之 前 的 值 动态 分 配 的 内 存 将 会 被 释放 。 这 会 导致 多 次 调用 内 存 管理 器 。 


4.1.3 字符 串 会 进行 大 量 复制 

由 于 字符 串 的 行为 与 值 相 似 ， 因 此 修改 一 个 字符 串 不 能 改变 其 他 字符 串 的 值 。 但 是 字符 串 
也 有 可 以 改变 其 内 容 的 变 值 操作 。 正 是 因为 这 些 变 值 操作 的 存在 ， 每 个 字符 串 变 量 必须 表 
现 得 好 像 它 们 拥有 一 份 自己 的 私有 副本 一 样 。 实 现 这 种 行为 的 最 简单 的 方式 是 当 创 建 字符 
串 、 赋 值 或 是 将 其 作为 参数 传递 给 函数 的 时 候 进行 一 次 复制 。 如 果 字 符 串 是 以 这 种 方式 实 
现 的 ， 那 么 赋值 和 参数 传递 的 开销 将 会 变 得 很 大 ， 但 是 变 值 函 数 (mutating function) 和 非 
常量 引用 的 开销 却 很 小 。 


有 一 种 被 称 为 “ 写 时 复制 ” (copy on write) 的 著名 的 编程 惯用 法 ， 它 可 以 让 对 象 与 值 具有 
同样 的 表现 ， 但 是 会 使 复制 的 开销 变 得 非常 大 。 在 C++ 文献 中 ， 它 被 简称 为 COW ( 详 见 
6.5.5 节 )。 在 COW 的 字符 串 中 ， 动 态 分 配 的 内 存 可 以 在 字符 串 间 共享 。 每 个 字符 串 都 可 
以 通过 引用 计数 知道 它们 是 否 使 用 了 共享 内 存 。 当 一 个 字符 串 被 赋值 给 另 一 个 字符 串 时 ， 
所 进行 的 处 理 只 有 复制 指针 以 及 增加 引用 计数 。 任 何 会 改变 字符 串 值 的 操作 都 会 首先 检查 
是 否 只 有 一 个 指针 指向 该 字符 串 的 内 存 。 如 果 多 个 字符 串 都 指向 该 内 存 空间 ， 所 有 的 变 值 
操作 〈 任 何 可 能 会 改变 字符 串 值 的 操作 ) 都 会 在 改变 字符 串 值 之 前 先 分 配 新 的 内 存 空间 并 
复制 字符 串 ， 

COWstring s1，s2; 

s1 = "hot"; // si 是 "hot" 

s2 = sl; ”// s2 是 "hot" (sl 和 s2 指 向 相同 的 内 存 ) 

s1[0] = 'n';// s1 会 在 改变 它 的 内 容 之 前 将 当前 内 存 空间 中 的 内 容 复制 一 份 

// 52 仍然 是 "hot", 但 s1 变 为 了 "not" 

写 时 复制 这 项 技术 太 有 名 了 ， 以 至 于 开发 人 员 可 能 会 想当然 地 以 为 std: :string 就 是 以 
这 种 方式 实现 的 。 但 是 实际 上 ， 写 时 复制 甚至 是 不 符合 C++11 标准 的 实现 方式 ， 而 且 问 
题 百出 。 


如 果 以 写 时 复制 方式 实现 字符 串 ， 那 么 赋值 和 参数 传递 操作 的 开销 很 小 ， 但 是 一 旦 字符 串 
被 共享 了 ， 非 常量 引用 以 及 任何 变 值 函 数 的 调用 都 需要 昂贵 的 分 配 和 复制 操作 。 在 并 发 代 
码 中 ， 写 时 复制 字符 串 的 开销 同样 很 大 。 每 次 变 值 函数 和 非常 量 引 用 都 要 访问 引用 计数 
器 。 当 引用 计数 器 被 多 个 线程 访问 时 ， 每 个 线程 都 必须 使 用 一 个 特殊 的 指令 从 主 内 存 中 得 
到 引用 计数 的 副本 ， 以 确保 没有 其 他 线程 改变 这 个 值 ( 详 见 12.2.7 节 )。 

在 C++11 及 之 后 的 版 本 中 ， 随 着 “ 右 值 引用 ”和 “移动 语义 ”( 详 见 6.6 节 ) 的 出 现 ， 使 用 
它们 可 以 在 某 种 程度 上 减轻 复制 的 负担 。 如 果 一 个 函数 使 用 “ 右 值 引用 ”作为 参数 ， 那 么 
当 实 参 是 一 个 右 值 表达 式 时 ， 字 符 串 可 以 进行 轻 量 级 的 指针 复制 ， 从 而 节省 一 次 复制 操作 。 
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4.2 第 一 次 尝试 优化 字符 串 

假设 通过 分 析 一 个 大 型 程序 揭示 出 了 代码 清单 4-1 中 的 remove_ctrt() 函数 的 执行 时 间 在 
程序 整体 执行 时 间 中 所 占 的 比例 非常 大 。 这 个 函数 的 功能 是 从 一 个 由 ASCI 字符 组 成 的 字 
符 串 中 移 除 控制 字符 。 看 起 来 它 似乎 很 无 境 ， 但 是 出 于 多 种 原因 ， 这 种 写法 的 函数 确实 性 
能 非常 糟糕 。 实 际 上 ， 这 个 国 数 是 一 个 很 好 的 例子 ， 向 大 家 展示 了 在 编码 时 完全 不 考虑 性 
能 是 多 么 地 危险 。 


代码 清单 4-1 需要 优化 的 remove_ctr1() 


std::string remove ctrl(std::string s) { 
std::string result; 
for (int i=0; i<s.length(); ++i) { 
if(s[i] >= 0x20) 
result = result + s[il]; 

















} 


return result; 


} 


remove_ctrl() 在 循环 中 对 通过 参数 接收 到 的 字符 串 s 的 每 个 字符 进行 处 理 。 循 环 中 的 代码 
就 是 导致 这 个 函数 成 为 热点 的 原因 。if 条 件 语句 从 字符 串 中 得 到 一 个 字符 ， 然 后 与 一 个 字 
掉 常 量 进行 比较 。 这 里 没有 什么 问题 。 但 是 第 5 行 的 语句 就 不 一 样 了 。 

正如 之 前 所 指出 的 ， 字 符 串 连接 运算 符 的 开销 是 很 大 的 。 它 会 调用 内 存 管理 器 去 构建 一 个 
新 的 临时 字符 串 对 象 来 保存 连接 后 的 字符 串 。 如 果 传 递 给 remove_ctrtL() 的 参数 是 一 个 由 
可 打印 的 字符 组 成 的 字符 串 ， 那 么 remove_ctr1() 几乎 会 为 s 中 的 每 个 字符 都 构建 一 个 临 
时 字符 串 对 象 。 对 于 一 个 由 100 个 字符 组 成 的 字符 串 而 言 ， 这 会 调用 100 次 内 存 管理 器 来 
为 临时 字符 串 分 配 内 存 ， 调 用 100 次 内 存 管理 器 来 释放 内 存 。 


除了 分 配 临 时 字符 串 来 保存 连接 运算 的 结果 外 ， 将 字符 串 连 接 表达 式 赋值 给 result 时 可 能 

还 会 分 配额 外 的 字符 串 。 当 然 ， 这 取决 于 字符 串 是 如 何 实现 的 。 

。 如 果 字 符 串 是 以 写 时 复制 惯用 法 实现 的 ， 那 么 赋值 运算 符 将 会 执行 一 次 高 效 的 指针 复制 
并 增加 引用 计数 。 

。 如 果 字 符 串 是 以 非 共 享 缓冲 区 的 方式 实现 的 ， 那 么 赋值 运算 符 必 须 复 制 临 时 字符 串 的 内 
容 。 如 果实 现 是 原生 的 ， 或 者 result 的 缓冲 区 没有 足够 的 容量 ， 那 么 赋值 运算 符 还 必 
须 分 配 一 块 新 的 缓冲 区 用 于 复制 连接 结果 。 这 会 导致 100 次 复制 操作 和 100 次 额外 的 内 
存 分 配 。 

。 如 果 编 译 器 实现 了 C++11 风格 的 右 值 引用 和 移动 语义 ， 那 么 连接 表达 式 的 结果 是 一 个 
右 值 , 这 表示 编译 器 可 以 调用 result 的 移动 构造 函数 ,而 无 需 调用 复制 构造 函数 。 因 此 ， 
程序 将 会 执行 一 次 高 效 的 指针 复制 。 

每 次 执行 连接 运算 时 还 会 将 之 前 处 理 过 的 所 有 字符 复制 到 临时 字符 串 中 。 如 果 参 数字 符 串 

及 n 个 字符 ， 那 么 remove_ctrtL() 会 复制 O(n ) 个 字符 。 所 有 这 些 内 存 分 配 和 复制 都 会 导致 

性 能 变 差 。 

因为 renove_ctrl() 是 一 个 小 且 独 立 的 函数 ， 所 以 我 们 可 以 构建 一 个 测试 套件 ， 通 过 反复 

地 调用 该 函数 来 测量 通过 优化 到 底 能 将 该 函数 的 性 能 提升 多 少 。 关 于 构建 测试 套件 和 测 
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量 性 能 的 内 容 ， 我 们 已 经 在 第 3 章 中 讨论 过 了 。 读 者 可 以 从 我 的 个 人 网 站 (http:Wwww. 
guntheroth.com) 下 载 这 个 函数 的 测试 套件 以 及 本 书 中 的 其 他 代码 。 


我 所 编写 的 这 个 时 间 测 试 会 以 一 个 长 达 222 个 字符 且 其 中 包含 多 个 控制 字符 的 字符 串 作 为 
参数 ， 反 复 地 调用 remove_ctrL() 国 数 。 测 量 结果 是 平均 每 次 调用 花费 24.8 微 秒 。 这 个 数 
字 自 身 并 不 重要 ， 因 为 这 是 在 我 的 PC (英特尔 这 平板 )、 操 作 系 统 (Windows 8.1) 和 编 
译 器 (Visual Studio 2010，32 位 ， 正 式 版 ) 上 得 出 的 测试 结果 。 重 要 的 是 ， 它 是 测量 性 能 
改善 的 基准 值 。 


在 下 面 的 小 节 中 ， 我 将 会 介绍 remove_ctr1l() 函数 的 性 能 优化 步骤 和 结果 。 


4.2.1 使 用 复合 赋值 操作 避免 临时 字符 串 


我 首先 通过 移 除 内 存 分 配 和 复制 操作 来 优化 remove_ctrl()。 代 码 清 单 4-2 是 remove_ 
ctrl() 改善 后 的 版 本 ， 其 中 第 5 行 中 会 产生 很 多 临时 字符 串 对 象 的 连接 表达 式 被 替换 为 了 
复合 赋值 操作 符 +=。 


代码 清单 4-2 ”remove_ctrL_mutating(): 复合 赋值 操作 符 


std: :string remove_ctrl_mutating(std::string s) { 
std::string result; 
for (int i=0; i<s.length(); ++i) { 
if(s[i] >= 0x20) 
result += s[i]; 





















































} 


return result; 


} 


这 个 小 的 改动 却 带 来 了 很 大 的 性 能 提升 。 在 相同 的 测试 下 ， 现 在 ,平均 每 次 调用 只 花费 
1.72 微 秒 ， 性 能 提升 了 13 倍 。 这 次 改善 源 于 移 除 了 所 有 为 了 分 配 临时 字符 串 对 象 来 保存 
连接 结果 而 对 内 存 管理 器 的 调用 ， 以 及 相关 的 复制 和 删除 临时 字符 串 的 操作 。 赋 值 时 的 分 
配 和 复制 操作 也 可 以 被 移 除 ， 不 过 这 取决 于 字符 串 的 实现 方式 。 


4.2.2 通过 预 留 存储 空间 减少 内 存 的 重新 分 配 


remove_ctrl_mutating() 图 数 仍然 会 执行 一 个 导致 result 变 长 的 操作 。 这 意味 着 result 
会 被 反复 地 复制 到 一 个 更 大 的 内 部 动态 缓冲 区 中 。 正 如 之 前 所 讨论 的 ， 每 次 字符 串 的 字 
符 缓 冲 区 发 生 溢出 时 ，std: :string 的 一 种 可 能 的 实现 方式 会 申请 两 倍 的 内 存 空间 。 如 果 
std: :string 是 以 这 种 规则 实现 的 ， 那 么 对 于 一 个 含有 100 个 字符 的 字符 串 来 说 ， 重 新 分 
配 内 存 的 次 数 可 能 会 多 达 8 次 。 


假设 字符 串 中 绝 大 多 数 都 是 可 打印 的 字符 ， 只 有 几 个 是 需要 被 移 除 的 控制 字符 ， 那 么 参数 
字符 串 s 的 长 度 几 乎 等 于 结果 字符 串 的 最 终 长 度 。 代 码 清 单 4-3 通过 使 用 std: :string() 
的 reserve() 成 员 函 数 预先 分 配 足够 的 内 存 空间 来 优化 remove_ctrl_mutating()。 使 用 
reserve() 不 仅 移 除了 字符 串 缓冲 区 的 重新 分 配 ， 还 改善 了 函数 所 读 取 的 数据 的 缓存 局 部 
性 (cache locality) ， 因 此 我 们 从 中 得 到 了 更 好 的 改善 效果 。 


















































注 3: 即 上 面 提 到 的 非 共 享 缓冲 区 的 方式 。 一 一 译 者 注 
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代码 清单 4-3 remove_ctrL_reserve(): 预 留 存储 空间 


std: :string remove_ctrL_reserve(std::string s) { 
std::string result; 
result.reserve(s.length()); 
for (int i=0; i<s.length(); ++i) { 
if (s[i] >= 0x20) 
result += s[i]; 
} 


return result; 


} 


移 除 了 几 处 内 存 分 配 后 ， 程 序 性 能 得 到 了 明显 的 提升 。 对 remove_ctrL_reserve() 进行 测 
试 的 结果 是 每 次 调用 耗 时 1.47 微 秒 ， 相 比 remove_ctrl_mutating() 提高 了 17%。 


4.2.3 ”消除 对 参数 字符 串 的 复制 
到 目前 为 止 ， 我 已 经 通过 移 除 对 内 存 管 理 器 的 调用 成 功 地 优化 了 remove_ctrL() 函数 。 
此 ， 继 续 寻 找 和 移 除 其 他 内 存 分 配 操作 是 合理 的 。 


如 果 通 过 值 将 一 个 字符 串 表 达 式 传递 给 一 个 函数 ， 那 么 形 参 〈 在 本 例 中 即 s) 将 会 通过 复 
制 构造 函数 被 初始 化 。 这 可 能 会 导致 复制 操作 ， 当 然 ， 这 取决 于 字符 串 的 实现 方式 。 


。 如 果 字 符 串 是 以 写 时 复制 惯用 法 方式 实现 的 ， 那 么 编译 器 会 调用 复制 构造 函数 ， 这 将 执 
行 一 次 高 效 的 指针 复制 并 增加 引用 计数 。 

。 如 果 字 符 捉 是 以 非 共 享 缓冲 区 的 方式 实现 的 ， 那 么 复制 造 函 数 必须 分 配 新 的 缓冲 区 并 复 
制 实 参 的 内 容 。 

。 如 果 编 译 器 实现 了 C++11 风格 的 右 值 引用 和 移动 语义 ， 而 且 实 参 是 一 个 表达 式 ， 那 么 
它 就 是 是 一 个 右 值 ,这样 编 译 喜 将 会 调用 移动 构造 国 数 , 这 会 执行 一 次 高 效 的 指针 复制 。 
如 果实 参 是 一 个 变量 ,那么 将 会 调用 形 参 的 构造 函数 ,这 会 导致 一 次 内 存 分 配 和 复制 。6.6 
市 中 将 详细 讲解 右 值 引用 和 移动 语义 。 


代码 清单 4-4 中 的 remove_ctrl_ref_args() 是 改善 后 的 永远 不 会 复制 s 的 函数 。 由 于 该 函 
数 不 会 修改 s， 因 此 没有 理由 去 复制 一 份 s。 取 而 代 之 的 是 ，remove_ctrl_ref_args() 会 给 
s 一 个 常量 引用 作为 参数 。 这 省 去 了 另外 一 次 内 存 分 配 。 由 于 内 存 分 配 是 昂贵 的 ， 所 以 哪 
怕 只 是 一 次 内 存 分 配 ， 也 值得 从 程序 中 移 除 。 


代码 清单 4-4 ”remove_ctrl_ref_args(): 移 除 实 参 复制 


std: :string remove_ctrL_ref_args(std: :string const& s) { 
std::string result; 
result.reservel(s. length()); 
for (int i=0; i<s.length(); ++i) { 
if (s[i] >= 0x20) 
result += s[i]; 
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} 


return result; 


} 
改善 后 的 结果 令 人 大 吃 一 惊 。remove_ctrl_ref_args() 的 测试 结果 是 每 次 调用 花费 1.60 微 
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秒 ， 相 比 remove_ctrl_reserve() 性 能 下 降 了 8%。 


到 底 发 生 了 什么 呢 ? 当 这 段 国 数 运行 时 ，Visual Studio 2010 应 该 会 复制 字符 串 。 因 此 ， 这 
次 修改 本 应 该 能 够 省 去 一 次 内 存 分 配 。 原 因 可 能 是 并 没有 真正 省 去 这 次 内 存 分 配 ， 或 是 将 
s 从 字符 串 修改 为 字符 串 引 用 后 导致 其 他 相关 因素 抵消 了 节省 内 存 分 配 带 来 的 性 能 提升 。 
引用 变量 是 作为 指针 实现 的 。 因 在 ， 当 在 remove_ctrl_ref_args() 中 每 次 出 现 s 时， 程序 
都 会 解 引 指针 ， 而 在 remove_ctrl_reserve() 中 则 不 会 发 生 解 引 。 我 推测 这 些 额 外 的 开销 
可 能 足以 导致 性 能 下 降 。 


4.2.4 使 用 和 迭 代 器 消除 指针 解 引 


解决 方法 是 在 字符 串 上 使 用 迭代 器 ， 如 代码 清单 4-5 所 示 。 字 符 串 迭代 器 是 指向 字符 缓冲 
区 的 简单 指针 。 与 在 循环 中 不 使 用 返 代 器 的 代码 相 比 ， 这 样 可 以 节省 两 次 解 引 操作 。 


代码 清单 4-5 remove_ctrl_ref_args_it(): remove_ctrl_ref_args() 的 使 用 了 和 迭代 器 的 版 本 


std: :string remove_ctrL_ref_args_it(std: :string const& s) { 
std::string result; 
result.reserve(s. length()); 
for (auto it=s.begin(),end=s.end(); it != end; ++it) { 
if (*it >= Ox20) 
result += *it; 





















































} 


return result; 


} 


测试 结果 令 人 满意 ， 每 次 调用 remove_ctrl_ref_args_it() 的 时 间 为 1.04 微 秒 。 与 不 使 用 
迭代 器 的 版 本 相 比 ， 这 绝对 是 非常 棒 的 结果 。 但 是 如 果 将 s 变 为 字符 串 引 用 的 话 会 怎么 样 
呢 ?” 为 了 确定 这 项 优化 到 底 是 否 有 助 于 改善 性 能 ， 我 编写 了 一 个 使 用 了 迭代 器 的 remove_ 
ctrl_reserve()。 测 试 结果 是 每 次 调用 remove_ctrl_reserve_it() 的 时 间 为 1.26 微 秒 ， 比 
修改 前 的 1.47 微 秒 略 有 减少 。 这 说 明 将 参数 类 型 修改 为 字符 串 引 用 确实 提高 了 程序 性 能 。 


实际 上 ， 我 为 函数 名 以 remove_ctrL() 开头 的 国 数 都 编写 过 对 应 的 使 用 友 代 器 的 版 本 。 在 
所 有 这 些 国 数 中 ， 使 用 友 代 器 都 比 不 使 用 友 代 器 要 快 。( 不 过 ， 在 4.3 节 中 ， 我 们 将 会 看 到 
这 个 技巧 并 非 总 是 有 效 。) 

在 remove_ctrl_ref_args_it() 中 还 包含 另 一 个 优化 点 ， 那 就 是 用 于 控制 for 循环 的 
s.end() 的 值 会 在 循环 初始 化 时 被 缓存 起 来 。 这 样 可 以 节省 2n 的 间接 开销 ， 其 中 是 参数 
字符 串 的 长 度 。 


4.2.5 消除 对 返回 的 字符 串 的 复制 

remove_ctrl() 畏 数 的 初始 版 本 是 通过 值 返回 处 理 结 果 的 。C++ 会 调用 复制 构造 函数 将 处 
理 结果 设置 到 调用 上 下 文中 。 虽 然 只 要 可 能 的 话 ， 编 译 器 是 可 以 省 去 ( 即 简单 地 移 除 ) 调 
用 复制 构造 国 数 的 ， 但 是 如 果 我 们 想 要 确保 不 会 发 生 复制 ， 那 么 有 几 种 选择 。 其 中 一 种 选 
择 是 将 字符 串 作 为 输出 参数 返回 ， 这 种 方法 适用 于 所 有 的 C++ 版 本 以 及 字符 串 的 所 有 实现 
方式 。 这 也 是 编译 器 在 省 去 调用 复制 构造 函数 时 确实 会 进行 的 处 理 。 代 码 清单 4-6 展示 了 
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改善 后 的 remove_ctrl_ref_args_it()。 


代码 清单 4-6 remove_ctrtL_ref_resutLt_it(): 移 除 对 返回 值 的 复制 


void remove_ctrL_ref_resutLt it ( 
std: :string& result, 
std::string const& s) 


result.clear(); 
resuLt.reserve(s.Length() ); 
for (auto it=s.begin(),end=s.end(); it != end; ++it) { 
if (*it >= 0x20) 
result += *it; 
} 
} 


当 程 序 调用 remove_ctrl_ref_result_it() 时 ， 一 个 指向 字符 串 变 量 的 引用 会 被 传递 给 形 参 
result。 如 果 result 引用 的 字符 串 变量 是 空 的， 那么 调用 reserve() 将 分 配 足够 的 内 存 空 
间 用 于 保存 字符 。 如 果 程 序 之 前 使 用 过 这 个 字符 串 变 量 ， 例 如 程序 循环 地 调用 了 remove_ 
ctrl_ref_result_it()， 那 么 它 的 缓冲 区 可 能 已 经 足够 大 了 ， 这 种 情况 下 可 能 无 需 分 配 
新 的 内 存 空间 。 当 函数 返回 时 ， 调 用 方 的 字符 串 变 量 将 会 接收 返回 值 ， 无 需 进 行 复制 。 
remove_ctrl_ref_result_it() 的 优点 在 于 多 数 情况 下 它 都 可 以 移 除 所 有 的 内 存 分 配 。 
remove_ctrl_ref_result_it() 的 性 能 测量 结果 是 每 次 调用 花费 1.02 微 秒 ， 比 修改 之 前 的 版 
本 快 了 大 约 2%。 


remove_ctrl_ref_result_it() 已 经 非常 高 效 了 ， 但 是 相 比 remove_ctrtL() 而 言 ， 它 的 接口 
很 容易 导致 调用 方 误 用 这 个 国 数 。 引 用 即使 是 常量 引用 一 一 的 行为 与 值 的 行为 并 非 完 
全 相同 。 下 面 的 函数 调用 将 会 返回 一 个 空 字符 串 ， 这 与 预想 的 结果 不 同 : 


std::string foo("this is a string"); 
remove_ctrl_ref_result it(foo, foo); 


4.2.6 ”用 字符 数组 代替 字符 串 

当 程 序 有 极其 严格 的 性 能 需求 时 ， 可 以 如 代码 清单 4-7 所 示 ， 不 使 用 C++ 标准 库 ， 而 是 利 
用 C 风格 的 字符 串 函 数 来 手动 编写 函数 。 相 比 std: :string，C 风格 的 字符 串 函 数 更 难以 
使 用 ,但 是 它们 却 能 带 来 显著 的 性 能 提升 。 要 想 使 用 C 风格 的 字符 串 ， 程 序 员 必须 手动 分 
配 和 释放 字符 缓冲 区 ， 或 者 使 用 静态 数组 并 将 其 大 小 设置 为 可 能 发 生 的 最 差 情 况 。 如 果 内 
存 的 使 用 量 非 常 严 格 ， 那 么 可 能 无 法 声明 很 多 静态 数组 。 不 过 ， 在 局 部 存储 区 ( 即 函数 调 
用 栈 ) 中 往往 有 是 够 的 空间 可 以 静态 地 声明 大 型 临时 缓冲 区 。 当 函数 退出 时 ， 这 些 缓冲 区 
将 会 被 回收 ， 而 产生 的 运行 时 开销 则 微不足道 。 除 了 一 些 限 制 极度 严格 的 典 入 式 环境 外 ， 
在 栈 上 声明 最 差 情况 下 的 缓冲 区 为 1000 甚至 10 000 个 字符 是 没有 问题 的 。 


代码 清单 4-7 ”remove_ctrl_cstrings(): 在 底层 编码 


void remove_ctrL_cstrings(char* destp, char const* srcp, size t size) { 
for (size t i=0; i<size; ++i) { 
if (srcp[i] >= 0x20) 
*destp++ = srcp[i]; 
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} 
*destp = 0; 
} 
测试 结果 是 每 次 调用 remove_ctrl_cstrings() 的 时 间 为 0.15 微 秒 。 这 比 上 一 个 版 本 的 函数 
快 了 6 倍 ， 比 最 初 的 版 本 更 是 快 了 足 足 170 倍 。 获 得 这 种 改善 效果 的 原因 之 一 是 移 除 了 若 
干 函 数 调 用 以 及 改善 了 缓存 局 部 性 。 


不 过 ,优秀 的 缓存 局 部 性 可 能 会 误导 性 能 测量 。 通 常 ， 在 两 次 调用 remove_ctrl_ 
cstrings() 之 间 的 其 他 操作 会 刷新 缓存 。 但 是 当 在 一 个 循环 中 频繁 地 调用 该 函数 时 ， 指 令 
和 数据 可 能 会 驻 留 在 缓存 中 。 


另 一 个 影响 remove_ctrl_cstrings() 的 因素 是 它 的 接口 与 初始 函数 相 比 发 生 了 大多 改 
变 。 如 果 有 许多 地 方 都 调用 了 初始 版 本 函数 ， 那 么 将 那些 代码 修改 为 调用 现在 的 这 个 函 
数 需要 花费 很 多 人 力 和 时 间 ， 而 且 修 改 后 代码 也 可 能 需要 优化 。 尽 管 如 此 ，remove_ctrl_ 
cstrings() 这 个 例子 仍然 说 明 ， 只 要 开发 人 员 愿 意 完全 重 写 函 数 和 改变 它 的 接口 ， 他 们 可 
以 获得 很 大 的 性 能 提升 。 



































停 下 来 思考 
我 想 我 们 可 能 走 得 太 远 了 。 
一 一 中 将 弗 雷 德里 克 。“ 博 伊 ” ,布朗 宁 (1896 一 1965) 


1944 年 9 月 10 日 对 陆军 元 帅 蒙哥马利 如 是 说 ， 表 达 了 他 对 盟 军 占领 阿 纳 姆 

大 桥 计 划 的 担忧 。 事 实证 明 ， 布朗 宁 的 担忧 是 正确 的 ， 因 为 阿 纳 姆 战役 就 是 

一 场 灾 难 。 
正如 在 之 前 的 章节 中 所 提 到 的 ， 在 进行 性 能 优化 时 ， 要 注意 权衡 简单 性 、 安 全 性 与 所 
获得 的 性 能 提升 效果 。 相 比 remove_ctrL()，remove_ctrL_ref_resuLt_it() 需要 改变 函 
人 
管理 临时 存储 空间 。 对 于 某 些 开 发 团队 来 说 ， 这 个 代价 太 大 了 。 


对 于 一 项 性 能 改善 是 否 值得 增加 接口 的 复杂 性 或 是 增加 需要 评审 函数 调用 的 工作 量 ， 
开发 人 员 有 不 同 的 观点 ， 有 时 候 观 点 还 非常 强硬 。 特别 钟 爱 通过 输出 参数 返回 隙 数值 
的 开发 人 员 可 能 会 认为 危险 用 例 不 太 可 能 出 现 ， 而 且 可 以 记录 下 来 。 通 过 输出 参数 返 
回 字 符 串 还 可 以 让 函数 返回 值 发 挥 其 他 作用 ， 例 如 返回 错误 代码 。 那 些 反 对 这 项 优 
化 的 开发 人 员 可 能 会 说 ， 这 里 没有 明显 地 警告 用 户 远 离 危 险 的 用 例 ， 而 且 一 个 微妙 的 
bug 带 来 的 麻烦 远 比 性 能 优化 的 价值 大 。 最 后 ， 团 队 必 须 回 答 一 个 问题 :“ 我 们 需要 将 
程序 性 能 提高 多 少 ? ” 

我 无 法 告诉 你 什么 时 候 优化 过 度 了 ， 因 为 这 取决 于 性 能 改善 有 多 重要 。 但 是 开发 人 员 
应 当 注 意 性 能 的 转变 ， 然 后 停 下 来 多 多 思考 。 

C++ 为 开发 人 员 提 供 了 很 多 选择 ， 从 编写 简单 、 安 全 但 效率 低下 的 代码 ， 到 编写 高 效 
但 必须 谨慎 使 用 的 代码 。 其 他 编程 语言 的 提倡 者 可 能 会 认为 这 是 一 个 缺点 ， 但 是 就 优 
化 而 言 ， 这 是 C++ 最 强 有 力 的 武器 之 一 。 
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4.2.7 第 一 次 优化 总 结 

表 4-1 中 总 结 了 对 remove_ctr1l() 采取 各 种 优化 手段 后 的 测试 结果 。 这 些 结果 都 来 自 于 遵 
循 一 个 简单 的 规则 : 移 除 内 存 分 配 和 相关 的 复制 操作 。 第 一 个 优化 手段 带 来 的 性 能 提升 效 
果 最 显著 。 

许多 因素 都 会 影响 绝对 时 间 ， 包 括 处 理 器 、 基 础 时 钟 频率 、 内 存 总 线 频率 、 编 译 器 和 优化 
器 。 我 已 经 提供 了 调试 版 和 正式 (优化 后 ) 版 的 测试 结果 来 证 明 这 一 点 。 虽 然 正 式 版 代码 
比 调 试 版 代码 的 运行 速度 快 得 多 ， 但 是 在 调试 版 和 正式 版 中 都 可 以 看 出 改善 效果 。 

表 4-1 : 性 能 总 结 VS 2010，， i7 






































函数 调试 版 A 正式 版 A 正式 版 与 调试 版 
remove_ctr1l() 967 微 秒 24.8 微 秒 3802% 
remove_ctrl_mutating() 104 微 秒 834% 1.72 微 秒 1341% 5923% 
remove_crtl_reserve() 102 微 秒 。 142% 1.47 微 秒 ” 17% 6853% 
remove_ctrl_ref _args_it() 215 微 秒 9% 1.04 微 秒 21% 20559% 
remove_ctrl_ref_result it() 215 微 秒 0% 1.02 微 秒 2% 21012% 
remove_ctrL_cstrings() 1 微 秒 9698% 0.15 微 秒 601% 559% 


正式 版 本 的 性 能 提升 百分比 看 起 来 更 具有 戏剧 性 。 这 可 能 是 受到 了 阿达 姆 法 则 的 影响 。 在 
调试 版 本 中 ， 函 数 的 内 联展 开 被 关闭 了 ， 这 增加 了 每 个 函数 调用 的 开销 ， 也 导致 内 存 分 配 
的 执行 时 间 所 占 的 比重 降低 了 。 


ee 所 外 他 多 ry A 
4.3 第 二 次 党 试 优 化 字符 串 
开发 人 员 还 可 以 通过 其 他 途径 寻求 更 好 的 性 能 。 我 们 将 在 本 节 中 讨论 几 种 优化 选择 。 


4.3.1 使 用 更 好 的 算法 


一 种 优化 选择 是 尝试 改进 算法 。 初 始 版 本 的 remove_ctr1() 使 用 了 一 种 简单 的 算法 ， 一 
将 一 个 字符 复制 到 结果 字符 串 中 。 ee a 
4-8 在 初始 设计 的 基础 上 ， 通 过 将 整个 子 字符 串 移 动 至 结果 字符 串 中 改善 了 函数 性 能 。 

个 改动 可 以 减少 内 存 分 配 和 复制 操作 的 次 数 。 pareve ee (blac 本 民 二 疝 二 外 -和 从 
选择 是 缓存 参数 字符 串 的 长 度 ， 以 减少 外 层 for 循环 中 结束 条 件 语 名 的 性 能 开销 。 


代码 清单 4-8 ”remove_ctrl_block(): 一 种 更 快 的 算法 


std: :string remove_ctrL_bLock(std: :string s) { 
std::string result; 
for (size t b=0, i=b, e=s.length(); b < e; b = i+1) { 
for (i=b; i<e; ++i) { 
if (s[i] < 0x20) 
break; 






























































} 


result = result + s.substr(b,i-b); 





return result; 


} 


测试 结果 是 每 次 调用 remove_ctrl_block() 的 运行 时 间 为 2.91 微 秒 ， 这 个 速度 大 约 比 初始 
版 本 的 remove_ctrt() 快 了 7 倍 。 
这 个 函数 与 以 前 一 样 ， 可 以 通过 使 用 复合 赋值 运算 符 替 换 字符 串 连 接 运 算 符 来 改善 
(remove_ctrl_block_mutatel()， 每 次 调用 的 时 间 是 1.27 微 秒 ) 其 性 能 ， 但 是 substr() 仍 
然 生 成 临时 字符 串 。 由 于 这 个 函数 将 字符 添加 到 了 result 的 末尾 ， 开 发 人 员 可 以 通过 重 
载 std::string 的 append() 成 员 函 数 来 复制 子 字 符 串 ， 且 无 需 创 建 临 时 字符 串 。 修 改 后 的 
remove_ctrl_block_mutate() 函数 (如 代码 清单 4-9 所 示 ) 的 测试 结果 是 每 次 调用 耗 时 0.65 
微 秒 。 这 个 结果 轻松 地 战胜 了 remove_ctrl_ref_result_it() 的 每 次 调用 1.02 微 秒 的 成 绩 ， 
比 初始 版 本 的 remove_ctr1() 快 了 36 倍 。 这 个 简单 的 例子 向 我 们 展示 了 选择 一 种 更 好 的 算 
法 是 一 种 多 么 强大 的 优化 手段 。 


代码 清单 4-9 ”remove_ctrl_block_append(): 一 种 更 快 的 算法 


std: :string remove_ctrL_bLock_append(std::string s) { 
std::string result; 
resuLt.reserve(s.Length() ); 
for (size t b=0,i=b; b < s.length(); b = i+1) { 
for (i=b; i<s.length(); ++i) { 
if (s[i] < 0x20) break; 
























































result.append(s, b, i-b); 
J 


return result; 


} 


这 个 结果 还 可 以 通过 预 留 result 的 存储 空间 和 移 除 参数 复制 (remove_ctrl_block_args()， 
每 次 调用 的 时 间 是 0.55 微 秒 ) 以 及 通过 移 除 返 回 值 的 复制 (remove_ctrl_block_ret(),， 每 
次 调用 的 时 间 是 0.51 微 秒 ) 来 改善 。 
有 一 件 事情 对 性 能 没有 改善 效果 ， 至 少 在 最 开始 没有 ， 那 就 是 使 用 友 代 器 重 写 remove_ 
ctrl_block()。 不 过 ， 如 表 4-2 所 示 ， 在 将 参数 和 返回 值 都 变 为 引用 类 型 后 ， 使 用 了 迭代 
器 的 版 本 的 开销 突然 从 增加 10 倍 变 为 了 减少 20%。 
表 4-2: 第 二 种 remove_ctrl 算 法 的 性 能 总 结 

每 次 调用 时 间 人 ( 与 上 一 次 相 比 ) 









































remove_ctrl() 24.8 微 秒 
remove_ctrl_block() 2.91 微 秒 751% 
remove_ctrl_block_mutate() 1.27 微 秒 129% 
remove_ctrl_block_append() 0.65 微 秒 95% 
remove_ctrl_block_args() 0.55 微 秒 27% 
remove_ctrl_block_ret() 0.51 微 秒 6% 
remove_ctrl_block_ret_it() 0.43 微 秒 19% 


另外 一 种 改善 性 能 的 方法 是 ， 通 过 使 用 std: :string 的 erase() 成 员 函 数 移 除 控制 字符 来 改 
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变 字符 串 。 代 码 清单 4-10 展示 了 这 种 修改 方法 。 


代码 清单 4-10 ”remove_ctrl_erase(): 不 创建 新 的 字符 串 ， 而 是 修改 参数 字符 串 的 值 作 
为 结果 返回 


std: :string remove_ctrL_erase(std::string s) { 
for (size t i = 0; i < s.length();) 
if (s[i] < 0x20) 
s.erase(i,1); 
else ++i; 
return s; 








3 


这 种 算法 的 优势 在 于 ， 由 于 s 在 不 断 地 变 短 ， 除 了 返回 值 时 会 发 生 内 存 分 配 外 ， 其 他 情 
况 下 都 不 会 再 发 生 内 存 分 配 。 修 改 后 的 函数 性 能 非常 棒 ， 测 试 结果 是 每 次 调用 耗 时 0.81 
毫秒 ， 比 初始 版 本 的 remove_ctrl() 快 了 30 倍 。 如 果 在 第 一 次 优化 中 取得 了 这 个 优异 的 
结果 ， 开 发 人 员 可 能 认为 自己 胜利 了 了 7， 然后 退出 优化 战场 ， 不 会 考虑 如 何 进 一 步 优 化 。 
有 时 候 ， 选 择 一 种 不 同 的 算法 后 程序 会 变 得 更 快 ， 即 使 没有 变 快 ， 也 可 能 会 变 得 比 原来 
更 容易 优化 。 


4.3.2 ”使 用 更 好 的 编译 器 


我 使 用 Visual Studio 2013 运行 了 相同 的 测试 。Visual Studio 2013 实现 了 移动 语义 ， 这 应 
当 会 让 一 些 函 数 更 快 。 不 过 ， 结 果 却 有 点 让 人 看 不 懂 。 在 调试 模式 下 的 运行 结果 是 Visual 
Studio 2013 比 Visual Studio 2010 快 了 5%~15%， 不 过 从 命令 行 运行 的 结果 是 VS2013 慢 了 
5%~20%。 我 也 试 过 Visual Studio 2015 RC 版 ， 结 果 更 慢 。 这 可 能 与 容器 类 的 改变 有 关 。 一 
个 新 版 本 的 编译 器 可 能 会 改善 性 能 ， 不 过 这 需要 开发 人 员 通 过 测试 去 验证 ， 而 不 是 想当然 。 


4.3.3 ”使 用 更 好 的 字符 串 库 

std: :string 的 定义 曾经 非常 模糊 ， 这 让 开发 人 员 在 实现 字符 串 时 有 更 广泛 的 选择 。 后 来 ， 

对 性 能 和 可 预测 性 的 需求 最 终 迫 使 C++ 标准 明确 了 它 的 定义 ， 导 致 很 多 新 奇 的 实现 方式 不 

再 适用 。 定 义 std: :string 的 行为 是 一 种 妥协 ， 它 是 经 过 很 长 一 段 时 间 以 后 从 各 种 设计 思 

想 中 演变 出 来 的 。 

。 与 其 他 标准 库容 器 一 样 ，std: :string 提供 了 用 于 访问 字符 串 中 单个 字符 的 迭代 器 。 

。 与 C 风格 的 字符 串 一 样 ，std: :string 提供 了 类 似 数组 索引 的 符号 ， 可 以 使 用 运算 符 [] 
访问 它 的 元 素 。std: :string 还 提供 了 一 种 用 于 获取 指向 以 空 字 符 结 尾 的 C 风格 字符 串 
的 指针 的 机 制 。 

。 与 BASIC 字符 串 类 似 ，std: :string 有 一 个 连接 运算 符 和 可 以 赋予 字符 串 值 语义 (value 
semantics) 的 返回 值 的 函数 。 

。 std::string 提供 的 操作 非常 有 限 ， 有 些 开 发 人 员 会 感觉 受到 了 限制 。 

希望 std: :string 与 C 风格 的 字符 数组 一 样 高 效 ， 这 个 需求 推动 着 字符 串 的 实现 朝 着 在 紧 

邻 的 内 存 中 表现 字符 串 的 方向 前 进 。C++ 标准 要 求 友 代 器 能 够 随机 访问 ， 而 且 禁 止 写 时 复 

制 语义 。 这 样 更 容易 定义 std: :string， 而 且 更 容易 推论 出 哪些 操作 会 使 在 std: :string 中 
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使 用 迭代 器 无 效 ， 但 它 同 时 也 限制 了 更 聪明 的 实现 方式 的 范围 。 

而 且 ， 商 业 C++ 编译 器 的 std: :string 的 实现 必须 足够 直接 ， 使 其 可 以 被 测试 ， 以 确保 字 
符 串 的 行为 符合 标准 ， 并 且 在 所 有 可 考虑 到 的 情况 下 都 具有 可 接受 的 性 能 。 编 译 器 厂商 犯 
错 的 代价 是 非常 大 的 。 这 会 推动 std: :string 的 实现 趋 于 简单 。 
标准 所 定义 的 std: :string 的 行为 有 一 些 缺 点 。 回 一 个 含有 100 万 个 字符 的 字符 串 中 插 
入 一 个 字符 会 导致 整个 字符 串 都 被 复制 一 份 ， 而 且 可 能 会 发 生 内 存 分 配 。 类 似 地 ， 所 有 
返回 值 的 子 字符 串 的 操作 都 必须 分 配 内 存 和 复制 它们 的 结果 。 一 些 开 发 人 员 会 通过 避 开 
一 个 或 多 个 之 前 提 到 的 限制 (迭代 器 、 索 引 、C 风格 的 访问 方式 、 值 语义 、 简 单 性 ) 来 
寻找 优化 机 会 。 

1. 采用 更 丰富 的 std: :string 库 

有 了 时候， 使 用 更 好 的 库 也 表示 使 用 额外 的 字符 串 函 数 。 许 多 库 都 可 以 与 std: :string 共同 
工作 ， 下 面 列举 了 其 中 一 部 分 。 


/Sr 人 


Boost 字符 事 库 (http://www.boost.org/doc/libs/?view=category_String) 
Boost 字符 串 库 提供 了 按 标记 将 字符 串 分 段 、 格 式 化 字符 串 和 其 他 操作 std: :string 的 
国 数 。 这 为 那些 喜爱 标 准 库 中 的 <algorithm> 头 文件 的 开发 人 员 提供 了 很 大 的 帮助 。 
C++ 字符 串 工具 所 (http://www.partow.net/programming/strtk/index.html) 
另 一 个 选择 是 C++ 字符 串 工 具 包 (StrTk)。StrTk 在 解析 字符 串 和 按 标记 将 字符 串 分 段 
方面 格外 优秀 ， 而 且 它 兼容 std: :string。 
2. 使 用 std: :stringstream 避 免 值 语义 
C++ 已 经 有 几 种 字符 串 实 现 方式 了 : 模板 化 的 、 支 持 迭 代 器 访问 的 、 可 变 长 度 的 
std::string 字符 串 ， 简单 的 、 基 于 迭代 器 的 std::vector<char>; 老式 的 、C 风格 的 以 空 
字符 结尾 的 、 固 定 长 度 的 字符 数组 。 


尽管 很 难 用 好 C 风格 的 字符 串 ， 但 我 们 之 前 已 经 通过 实验 看 到 了 ， 在 适当 的 条 件 下 ， 使 用 
C 风格 的 字符 数组 替换 C++ 的 std: :string 后 可 以 极 大 程度 地 改善 程序 的 性 能 。 这 两 种 实 
现 方式 都 很 难 完 美 地 适用 于 所 有 情况 。 


C++ 中 还 有 另外 一 种 字符 串 。std: :stringstream 之 于 字符 串 ， 就 如 同 std: :ostream 之 于 
输出 文件 。std: :stringstrean 类 以 一 种 不 同 的 方式 封装 了 一 块 动态 大 小 的 缓冲 区 (事实 
上 ， 通 常 就 是 一 个 std: :string)， 数 据 可 以 被 添加 至 这 个 实体 (请 参见 6.1.3 节 中 的 内 容 ) 
中 。std::stringstream 是 一 个 很 好 的 例子 ， 它 展示 了 如 何在 类 似 的 实现 的 顶层 使 用 不 同 的 
API 来 提高 代码 性 能 。 代 码 清单 4-11 展示 了 std: :stringstrean 的 使 用 方法 。 


代码 清单 4-11 std: :stringstream: 类 似 于 字符 串 ， 但 却 是 一 个 对 象 


std::stringstream s; 

for (int i=0; i<10; ++i) { 
s.clear(); 
s << "The square of " << 1 << "is " << i*i << std::endl; 
log(s.str()); 




















































































































































































































优化 字符 串 的 使 用 ， 案 例 研 究 | 65 


这 段 代 码 展 示 了 几 个 优化 代码 的 技巧 。 由 于 s 被 修改 为 了 一 个 实体 ， 这 个 很 长 的 插入 表达 
式 不 会 创建 任何 会 临时 字符 串 ， 因 此 不 会 发 生 内 存 分 配 和 复制 操作 。 另 外 一 个 故意 的 改动 
是 将 s 声明 了 在 循环 外 。 这 样 ，s 内 部 的 缓存 将 会 被 复 用 。 第 一 次 循环 时 ， 随 着 字符 被 添 
加 至 对 象 中 ， 可 能 会 重新 分 配 几 次 缓冲 区 ， 但 是 在 接 下 来 的 迭代 中 就 不 太 可 能 会 重新 分 配 
缓冲 区 了 。 相 比 之 下 ， 如 果 将 s 定义 在 人 循环 内 部 ， 每 次 循环 时 都 会 分 配 一 块 空 的 缓冲 区 ， 
而 且 当 使 用 插入 运算 符 添加 字符 时 ， 还 有 可 能 重新 分 配 缓冲 区 。 


如 果 std: :stringstream 是 用 std: :string 实现 的 ， 那么 它 在 性 能 上 永远 不 能 胜 过 std: :string。 
它 的 优点 在 于 可 以 防止 某 些 降低 程序 性 能 的 编程 实践 。 


3. 采用 一 种 新 奇 的 字符 串 实现 方式 

开发 人 员 可 能 会 发 现 字符 串 缺乏 抽象 性 。C++ 最 重要 的 特性 之 一 是 没有 内 置 字符 串 等 抽象 
性 ， 却 以 模板 或 者 函数 库 的 形式 提供 了 这 种 抽象 性 。std: :string 等 可 选 的 实现 方式 成 为 
了 这 门 编程 语言 的 特性 。 所 以 一 位 非常 聪明 的 开发 人 员 实 现 的 字符 串 的 性 能 可 能 会 更 好 。 
通过 移 除 一 个 或 多 个 在 本 节 开 头 列举 出 的 限制 (迭代 器 、 索 引 、C 风格 访问 、 简 单 性 )， 
可 以 定义 出 自己 的 字符 串 类 来 优化 那些 因 使 用 了 std: :string 而 无 法 优化 的 代码 。 


随 着 时 间 的 推移 ， 开 发 人 员 提出 了 许多 聪明 的 字符 串 数 据 结构 ， 承 诺 可 以 显著 地 降低 内 存 

分 配 和 复制 字符 串 内 容 的 开销 。 但 是 出 于 以 下 几 个 原因 ， 这 可 能 会 是 “ 塞 壬 的 歌声 ” 。 

。 任何 想 要 取代 std: :string 的 实现 方式 都 必须 具有 足够 的 表现 力 ， 且 在 大 多 数 场合 都 比 
std: :string 更 高 效 。 提 议 的 绝 大 多 数 可 选 实现 方式 都 无 法 确保 在 多 数 情况 下 可 以 提高 
性 能 。 

。 将 一 个 大 型 程序 中 出 现 的 所 有 std: :string 都 换 成 其 他 字符 串 是 一 项 浩大 的 工程 ， 而 且 
无 法 确保 这 一 定 能 提高 性 能 。 

。 虽然 有 许多 种 可 选 的 字符 串 概 念 被 提出 来 了 ， 而 且 有 一 些 已 经 实现 了 ， 但 是 想 要 通过 谷 
歌 找到 一 种 像 std: :string 一 样 完整 的 、 经 过 测试 的 、 容 易 理 解 的 字符 串 实 现 ， 却 需要 
花费 一 些 工 夫 。 


在 设计 程序 时 考虑 替换 std: :string 可 能 比 在 进行 优化 时 替换 std: :string 更 现实 。 虽 然 
对 于 一 个 有 足够 时 间 和 资源 的 大 团队 来 说 ， 在 进行 优化 时 替换 std: :string 也 是 可 能 的 ， 
但 是 结果 的 不 确定 性 太 高 ， 因 而 这 种 优化 不 太 现实 。 但 是 仍然 有 其 他 实现 方式 的 字符 串 可 
以 帮助 我 们 。 
std::string_ view 
string_view 可 以 解决 std: :string 的 某 些 问题 。 它 包含 一 个 指向 字符 串 数据 的 无 主 指 
针 和 一 个 表示 字符 串 长 度 的 值 ， 所 以 它 可 以 表示 为 std: :string 或 字面 字符 串 的 子 字 
符 串 。 与 std: :string 的 返回 值 的 成 员 函 数 相 比 ， 它 的 substring 和 trinm 等 操作 更 高 
效 。std::string. string_view 可 能 会 被 加 入 到 C++14 中 。 有 些 编译 器 现在 已 经 实现 了 
std: :experimentaL: :string_view。string_view 与 std::string 的 接口 几乎 相同 。 


std::string 的 问题 在 于 指针 是 无 主 的 。 程 序 员 必须 确保 每 个 string_view 的 生命 周期 
都 不 会 比 它 所 指向 的 std: :string 的 生命 周期 长 。 















































































































































注 4: 塞 壬 是 人 身 鸟 足 的 女 妖 ， 她 用 甜美 的 歌声 诱惑 经 过 的 海员 ， 使 他 们 的 船 触礁 沉没 。 一 一 译 者 注 











66 | 第 4 章 


folly::fbstring (https://github.cony/facebook/folly/blob/master/folly/docs/FBString.md) 
Folly 是 一 个 完整 的 代码 库 ， 它 被 Facebook 用 在 了 他 们 自己 的 服务 器 上 。 它 包含 了 高 度 
优化 过 的 、 可 以 直接 禁 代 std::string 的 fbstring。 在 fbstring 的 实现 方式 中 ， 对 于 短 
的 字符 串 是 不 用 分 配 缓冲 区 的 。fbstring 的 设计 人 员 声 称 他 们 测量 到 性 能 得 到 了 改善 。 
由 于 这 种 特性 ，Folly 很 可 能 非常 健壮 和 完整 。 目 前 ， 只 有 Linux 支持 Folly。 

字符 串 类 的 工具 包 (http://johnpanzer.com/tsc_cuj/TooLboxOfStrings .htmL) 
这 篇 发 表 于 2000 年 的 文章 和 代码 描述 了 一 个 模板 化 的 字符 串 类 型 ， 其 接口 与 SGT 的 
std::string 相同 。 它 提供 了 一 个 固定 最 大 长 度 的 字符 串 类 型 和 一 个 可 变 长 度 的 字符 串 
类 型 。 这 是 模板 元 编程 (template metaprogramming) 魔法 的 一 个 代表 作 ， 但 可 能 会 让 
一 些 人 费解 。 对 于 那些 致力 于 设计 更 好 的 字符 串 类 的 开发 人 员 来 说 ， 这 是 一 个 切实 可 行 
的 候选 类 库 。 


C++03 表达 式 模板 (http:Wcraighenderson.co.Uk/papers/exptempl/) 
这 是 在 2005 年 的 一 篇 论文 中 展示 的 用 于 解决 特定 字符 串 连 接 问 题 的 模板 代码 。 表 达 
式 模板 重 写 了 + 运算 符 , 这 样 可 以 创建 一 个 表示 两 个 字符 串 的 连接 或 是 一 个 字符 串 和 
一 个 字符 串 表 达 式 的 连接 的 中 间 类 型 。 当 表达 式 模板 被 赋值 给 一 个 字符 串 时 ， 表 达 式 
模板 将 内 存 分 配 和 复制 推迟 至 表达 式 结束 ， 只 会 执行 一 次 内 存 分 配 。 表 达 式 模版 兼容 
std: :string。 当 既 存 的 代码 中 有 一 个 连接 一 长 串 子 字符 串 的 表达 式 时 ， 使 用 表达 式 模 
板 可 以 显著 地 提升 性 能 。 这 个 概念 可 以 扩展 至 整个 字符 串 库 。 

Better String 库 (http://bstring.sourceforge.net/) 
这 个 代码 归档 文件 中 包含 了 一 个 通用 的 字符 串 实 现 。 它 与 std: :string 的 实现 方式 不 
同 ， 但 是 包含 一 些 强大 的 特征 。 如 果 许 多 字符 串 是 从 其 他 字符 串 中 的 一 部 分 构建 出 来 
的 ，bstring 允许 通过 相对 一 个 字符 串 的 偏 移 量 和 长 度 来 组 成 一 个 新 的 字符 串 。 我 用 过 
以 这 种 思想 设计 实现 的 有 专利 权 的 字符 串 ， 它 们 确实 非常 高 效 。 在 C++ 中 有 一 个 称 为 
CBString 的 bstring 库 的 包装 类 。 

rope<T,alloc> (https:/www.sgi.com/tech/stl/Rope.htm!l) 
这 是 一 个 非常 适合 在 长 字符 串 中 进行 插入 和 删除 操作 的 字符 串 库 。 它 不 兼容 std: :string。 

Boost 字符 串 算 法 (http://www.boost.org/doc/libs/1_60_0/doc/html/string_algo.html) 
这 是 一 个 字符 串 算法 库 ， 它 是 对 std: :string 的 成 员 函 数 的 补充 。 这 个 库 是 基于 “查找 
和 替换 ”的 概念 构建 起 来 的 。 


4.3.4 使 用 更 好 的 内 存 分 配器 
每 个 std: :string 的 内 部 都 是 一 个 动态 分 配 的 字符 数组 。std: :string 看 上 去 像 是 下 面 这 样 
的 通用 模板 的 一 种 特 化 : 


namespace std { 
template < class charT， 
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注 5: SGI 即 美国 硅 图 公司 ， 成 立 于 1982 年 ， 是 一 家 生产 高 性 能 计算 机 系统 的 跨国 公司 ， 总 部 设 在 美国 加 
州 旧金山 硅谷 。SGI STL 是 STL 的 三 大 版 本 之 一 。 译 者 广 
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class traits = Char_traits<charT>， 
class Alloc = allocator<charT> 
> class basic_string; 


typedef basic _ string<char> string; 
}; 
第 三 个 模板 参数 Alloc 定义 了 一 个 分 配器 一 一 一 个 访问 C++ 内 存 管理 器 的 专用 接口 。 默 认 


情况 下 ，Alloc 是 std::allocator， 它 会 调用 ::operator new() 和 : :operator delete() 
两 个 全 局 的 C++ 内 存 分 配器 函数 。 


我 将 会 在 第 13 章 中 详细 讲解 ::operator new() 和 ::operator delete() 以 及 分 配器 对 象 
的 行为 。 现 在 ,我 只 能 告诉 读者 ，: :operator new() 和 : :operator delete() 会 做 一 项 非 
常 复杂 和 困难 的 工作 ， 为 各 种 动态 变量 分 配 存储 空间 。 它 们 需要 为 大 大 小 小 的 对 象 以 及 
单线 程 和 多 线程 程序 工作 。 为 了 实现 良好 的 通用 性 ， 它 们 在 设计 上 做 出 了 一 些 妥 协 。 有 
时 ， 选 择 一 种 更 加 特 化 的 分 配器 可 能 会 更 好 。 因 此 ， 我 们 可 以 指定 默认 分 配器 以 外 的 为 
std: :string 定制 的 分 配器 作为 Alloc。 


我 编写 了 一 个 极其 简单 的 分 配器 来 展示 可 以 获得 怎样 的 性 能 提升 。 这 个 分 配器 可 以 管理 几 
个 固定 大 小 的 内 存 块 。 如 代码 清单 4-12 所 示 ， 我 首先 为 使 用 这 种 分 配器 的 字符 串 创建 了 一 
个 typedef。 接 着 ， 我 修改 初始 的 、 非 常 低 效 的 remove_ctr1l() 来 使 用 这 种 特殊 的 字符 串 。 


代码 清单 4-12 ”使 用 简单 的 、 管 理 固定 大 小 内 存 块 的 分 配器 的 原始 版 本 的 remove_ctr1() 


typedef std: :basic_string< 
char, 
std::char_traits<char>, 
block_allocator<char, 10>> fixed_block_string; 







































































fixed_block_string remove_ctrl_ fixed block(std::string s) { 
fixed_block_string result; 
for (size t i=0; i<s.length(); ++i) { 
if (s[i] >= 0x20) 
result = result + s[il]; 


} 


return result; 


} 


测试 结果 非常 有 戏剧 性 。 在 相同 的 测试 中 ，remove_ctrl_fixed_block() 的 运行 时 间 为 
13 636 训 秒 ， 大 约 比 初始 版 本 快 了 7.7 倍 。 

修改 分 配器 并 不 适用 于 层 导 的 开发 人 员 。 你 无 法 将 基于 不 同 分 配器 的 字符 串 赋 值 给 另外 一 
个 字符 串 。 修 改 后 的 示例 代码 之 所 以 能 够 工作 ， 仅 仅 是 因为 s[i] 是 一 个 字符 ， 而 不 是 一 个 
只 有 一 个 字符 的 std: :string。 你 可 以 通过 将 字符 串 转 换 为 C 风格 的 字符 串 ， 将 一 个 字符 
串 的 内 容 复 制 到 另 一 个 字符 串 中 。 例 如 ， 可 以 将 示例 代码 修改 为 result = s.c_str();。 
将 代码 中 所 有 的 std::string 都 修改 为 fixed_block_string 将 会 带 来 很 大 的 影响 。 因 此 ， 
如 果 一 个 团队 认为 需要 对 他 们 使 用 的 字符 串 做 些 改变 ， 那 么 最 好 在 设计 阶段 就 定义 全 工程 
范围 的 typedef : 
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typedef std: :string MyProjString; 


之 后 ， 当 要 进行 涉及 大 量 代 码 修改 的 实验 时 ， 只 需要 修改 这 一 处 代码 即 可 。 仅 在 新 的 
字符 串 与 要 替换 的 字符 串 有 相同 的 成 员 函 数 时 ， 这 种 方法 才 奏 效 。 不 同 分 配器 分 配 的 
std: :basic_strings 具有 这 种 特性 。 


4.4 消除 字符 串 转 换 


现代 世界 的 复杂 性 之 一 是 不 止 有 一 种 字符 串 。 通 常 ， 字 符 串 函数 只 适用 于 对 相同 类 型 的 字 
符 串 进 行 比较 、 赋 值 或 是 作为 运算 对 象 和 参数 ， 因 此 ， 程 序 员 必 须 将 一 种 类 型 的 字符 串 转 
换 为 男 外 一 种 类 型 。 任 何 时 候 ， 涉 及 复制 字符 和 动态 分 配 内 存 的 转换 都 是 优化 性 能 的 机 会 。 


转换 函数 库 自身 也 可 以 被 优化 。 更 重要 的 是 ， 大 型 程序 的 良好 设计 是 可 以 限制 这 种 转换 的 。 


4.4.1 将 C 字 符 串 转换 为 std: :string 


从 以 空 字 符 结 尾 的 字符 串 到 std: :string 的 无 谓 转换 ， 是 浪费 计算 机 CPU 周期 的 原因 之 
i 例如 : 


std::string MyClass::Name() const { 
return "MyClass"; 























} 


这 个 国 数 必须 将 字符 串 常 量 MyClass 转换 为 一 个 std::string, 分 配 内 存 和 复制 字符 到 
std: :string 中 。C++ 会 自动 地 进行 这 次 转换 ， 因 为 在 std::string 中 有 一 个 参数 为 char* 
的 构造 函数 。 

转换 为 std::string 是 无 谓 的 。std::string 有 一 个 参数 为 char* 的 构造 函数 ， 因 此 当 
Name() 的 返回 值 被 赋值 给 一 个 字符 串 或 是 作为 参数 传递 给 另外 一 个 函数 时 ， 会 自动 进行 转 
换 。 上 面 的 函数 可 以 简单 地 写 为 : 


char const* MyClass::Name() const { 
return "MyClass"; 



































} 
这 会 将 返回 值 的 转换 推迟 至 它 真 正 被 使 用 的 时 候 。 当 它 被 使 用 时 ， 通 常 不 需要 转换 : 


char const* p = myInstance->Name(); // 没有 转换 
std::string s = myInstance->Name(); // 转换 为 'std::string' 
std::cout << myInstance->Name(); // 没有 转换 


一 个 大 型 软件 系统 可 能 含有 很 多 层 (layer) ， 这 会 让 字符 串 转 换 成 为 一 个 大 问题 。 如 果 在 
某 一 层 中 接收 的 参数 类 型 是 std: :string， 而 在 它 下 面 一 层 中 接收 的 参数 类 型 是 char* ， 那 
么 可 能 需要 写 一 些 代 码 将 std: :string 反 转 为 char*: 


void HighLevelFunc(std::string s) { 
LowLevelFunc(s.c_str()); 


Bs 

















} 
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4.4.2 不 同 字 符 集 间 的 转换 
现代 C++ 程序 需要 将 C 的 字面 字符 串 (ASCI， 有 符号 字 节 ) 与 来 自 Web 浏览 器 的 UTF-8 
(无 符号 ， 每 个 字符 都 是 可 变 长 字 节 ) 字符 串 进 行 比 较 ， 或 是 将 由 生成 UTF-16 的 字 流 〈 带 
或 者 不 带 端 字 节 ) 的 XML 解析 器 输出 的 字符 串 转换 为 UTF-8。 转 换 组 合 的 数量 令 人 生 女 。 
移 除 转换 的 最 佳 方法 是 为 所 有 的 字符 串 选 择 一 种 固定 的 格式 ， 并 将 所 有 字符 串 都 存储 为 这 
种 格式 。 你 可 能 希望 提供 一 个 特殊 的 比较 函数 ， 用 于 比较 你 所 选择 的 格式 和 C 风格 的 以 空 
字符 结尾 的 字符 串 ， 这 样 就 无 需 进 行 字符 串 转换 。 我 个 人 比较 喜欢 UTF-8， 因 为 它 能 够 表 
示 所 有 的 Unicode 代码 点 ， 可 以 直接 与 C 风格 的 字符 串 进 行 比较 (是 否 相 同 )， 而 且 多 数 
浏览 器 都 可 以 输出 这 种 格式 。 

在 时 间 紧 迫 的 情况 下 编写 的 大 型 程序 中 ， 你 可 能 会 发 现在 将 一 个 字符 串 从 软件 中 的 一 层 传 
弟 给 另 一 层 时 ， 先 将 它 从 原来 的 格式 转换 为 一 种 新 的 格式 ， 然 后 再 将 它 转 换 为 原来 的 格式 
的 代码 。 可 以 通过 重 写 类 接口 中 的 成 员 函 数 ， 让 它们 接收 相同 的 字符 串 类 型 来 解决 这 个 问 
题 。 不 幸 的 是 ， 这 项 任务 就 像 是 在 C++ 程序 中 加 入 常量 正确 性 (const-correctness)。 这 种 
修改 涉及 程序 中 的 许多 地 方 ， 难 以 控制 其 范围 。 






















































































4.5 ”小 结 


。 由 于 字符 串 是 动态 分 配 内 存 的 ， 因 此 它们 的 性 能 开销 非常 大 。 它 们 在 表达 式 中 的 行为 与 
值 类 似 ， 它 们 的 实现 方式 中 需要 大 量 的 复制 。 

。 将 字符 串 作 为 对 象 而 非 值 可 以 降低 内 存 分 配 和 复制 的 频率 。 

。 为 字符 串 预 留 内 存 空间 可 以 减少 内 存 分 配 的 开销 。 

。 将 指向 字符 串 的 常量 引用 传递 给 函数 与 传递 值 的 结果 几乎 一 样 ， 但 是 更 加 高 效 。 

。 将 函数 的 结果 通过 输出 参数 作为 引用 返回 给 调用 方 会 复 用 实 参 的 存储 空间 ， 这 可 能 比分 
配 新 的 存储 空间 更 高 效 。 

。 即使 只 是 有 时 候 会 减少 内 存 分 配 的 开销 ， 仍 然 是 一 种 优化 。 

。 有 时 候 ， 换 一 种 不 同 的 算法 会 更 容易 优化 或 是 本 身 就 更 高 效 。 

。 标准 库 中 的 类 是 为 通用 用 途 而 实现 的 ， 它 们 很 简单 。 它 们 并 不 需要 特别 高 效 ， 也 没有 为 
某 些 特殊 用 途 而 进行 优化 。 
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优化 算法 





时 间 能 治愈 理智 无 法 抚 平 的 伤 痛 。 

一 一 塞 内 加 (公元 前 4 年 一 公元 65 年 ) 
当 一 个 程序 需要 在 数秒 内 执行 完毕 ， 实 际 上 却 要 花费 数 小 时 时 ， 唯 一 可 以 成 功 的 优化 方法 
可 能 就 是 选择 一 种 更 高 效 的 算法 了 。 多 数 优 化 方法 的 性 能 改善 效果 是 线性 的 ， 但 是 使 用 更 
高 效 的 算法 替换 低 效 算法 可 以 使 性 能 呈现 指数 级 增长 。 
设计 高 效 算法 是 许多 计算 机 科学 教科 书 和 博士 学 术 论 文 的 主题 。 许 多 专业 计算 机 科学 家 一 
生 致 力 于 分 析 算 法 。 由 于 篇 幅 有 限 ， 本 章 无 法 覆盖 这 个 主题 所 有 方面 的 内 容 。 在 本 章 中 ， 
我 只 会 简单 介绍 一 下 常用 算法 的 时 间 开 销 ， 为 读者 提供 一 份 当 仙 到 麻烦 时 可 以 查阅 的 指南 。 
我 将 介绍 常用 的 查找 和 排序 算法 ， 然 后 介绍 一 个 用 在 现 有 的 程序 中 优化 查找 和 排序 的 工 
具 。 除 了 为 未 知 数据 选择 一 种 最 优 算法 外 ， 对 于 已 经 排序 好 或 是 几乎 排序 好 的 数据 以 及 有 具 
有 其 他 特性 的 数据 ， 有 些 算法 会 特别 高 效 。 
计算 机 科学 家 之 所 以 研究 重要 的 算法 和 数据 结构 ， 是 因为 它们 是 展示 如 何 优化 代码 的 典型 
示例 。 我 收集 了 一 些 重要 的 优化 技巧 ， 希望 读者 可 以 认识 到 在 哪些 地 方 可 以 使 用 它们 。 


























优化 战争 故事 
许多 程序 问题 婚 有 简单 但 异常 低 效 的 解决 方案 ， 了 也 有 公开 发 表 的 微妙 但 更 加 高 效 的 解 
决 方案 。 对 开发 团队 而 言 ， 最 好 的 选择 可 能 是 从 团队 外 部 寻找 一 位 算法 分 析 专 家 ， 来 
帮助 判断 某 个 特定 问题 是 否 有 更 高 效 的 解决 方案 。 雇 用 这 么 一 位 顾问 是 值得 的 。 
我 曾经 在 一 个 团队 中 开发 电路 板 功 能 测试 仪 (包括 第 3 章 中 的 Fluke 9010A 图 片 )。 我 
们 在 电路 板 测 试 仪 中 内 置 了 一 项 RAM 测试 ， 通 过 这 项 测试 可 以 诊断 出 设备 的 制造 缺陷 。 
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有 一 次 ， 我 试图 将 测试 仪 连接 到 Commodore PET 计算 机 ， 然 后 使 用 它 的 显存 运行 
RAM 测试 来 检查 这 项 测试 的 和 覆盖 率 ， 这 样 我 就 可 以 直接 在 PET 中 内 置 的 屏幕 上 看 到 
测试 模式 了 。 我 通过 一 种 粗鲁 但 是 有 效 的 方法 一 一 在 PET 的 视频 RAM 芯片 上 的 相 邻 
引 脚 间 插 入 一 把 螺丝 刀 一 一 让 RAM 电路 出 错 。 我们 惊奇 地 发 现 ， 聪 明 的 工程 师 开 发 
出 的 测试 仪 竞 然 多 次 没有 检测 出 这 种 明显 地 改变 了 写 入 到 RAM 的 模式 的 错误 。 而 且 ， 
根据 摩尔 定律 ， 每 18 个 月 所 需 测 试 的 RAM 的 容量 就 会 翻 倍 。 我 们 需要 一 种 新 的 、 更 
快 的 、 故 障 履 盖 率 更 高 的 RAM 测试 算法 。 


RAM 穷 举 测试 是 不 可 行 的 ， 它 访问 内 存 的 时 间 是 O(2”) (其 中 nn 是 RAM 的 地 址 的 数 
量 ， 请 参见 5.1 节 了 解 更 多 关于 大 O 标记 的 知识 )。 在 当时 已 发 表 的 RAM 测试 算法 
中 ， 大 部 分 的 速度 都 非常 缓慢 ， 只 有 O(n ) 或 是 O(n )。 这 些 测试 算法 并 没有 过 多 考虑 
当 内 存 设备 只 有 几 百 个 字 的 情况 。 这 些 理论 上 可 行 的 已 发 表 的 测试 需要 访问 每 个 单元 
30 次 ， 才 能 得 到 基础 故障 履 盖 率 。 我 当时 提议 使 用 伪 随 机 序列 来 实现 一 种 更 好 的 测 
试 ， 但 是 我 缺乏 数学 知识 来 证 明 它 是 正确 的 。 我 们 已 经 充分 地 证 明 过 了 仅 赁 直觉 是 无 
法 确保 成 功 的 。 我 们 需要 一 位 算法 专家 。 

我 给 华盛顿 大 学 的 老 教 授 打 了 一 通电 话 ， 他 给 我 介绍 了 一 位 名 叫 David Jacobson 的 在 
读 博 士 。David Jacobson 很 乐意 暂时 放弃 作为 研究 助手 的 助学金 ， 换 取 作 为 开发 人 员 
的 薪水 。 我 们 的 合作 成 果 是 研究 出 了 一 种 只 需要 访问 内 存 5 次 的 一 流 的 RAM 测试 、 
几 种 新 奇 的 功能 测试 算法 ， 并 获得 了 几 项 美国 专利 。 


5.1 算法 的 时 间 开 销 
算法 的 时 间 开 销 是 一 个 抽象 的 数学 函数 ， 它 描述 了 随 着 输入 数据 规模 的 增加 ， 算 法 的 时 
间 开 销 会 如 何 增长 。 有 许多 因素 都 会 影响 程序 在 一 台 特 定 计 算 机 上 的 运行 时 间 ， 结 果 导 
致 程 序 运 行 时 间 不 是 讨论 算法 性 能 的 完美 方法 。 但 时 间 开 销 不 考虑 这 些 细节 ， 只 是 简单 
地 表示 输入 数据 规模 和 开销 之 间 的 关系 。 我 们 可 以 将 算法 近似 地 按照 时 间 开 销 分 类 ， 然 
后 研究 同一 类 算法 的 共同 特征 。 任 何 一 本 讲述 算法 和 数据 结构 的 教科 书 都 会 讨论 时 间 开 
销 一 一 我 喜欢 Steven S. Skiena 的 《算法 设计 手册 (第 2 版 )》 一 一 所 以 本 章 不 会 进行 广 
泛 且 深入 的 讨论 。 

时 间 开 销 通常 使 用 大 O 标记 表示 ， 例 如 OGtn))， 其 中 是 某 个 会 显著 影响 输入 数据 规模 的 
因素 ，ftn) 描述 的 是 一 个 算法 对 规模 为 n 的 输入 数据 执行 了 多 少 次 显著 的 操作 。 通 常 ， 函 数 
ftn) 被 简化 为 仅 表 示 增 长 最 快 的 因素 ， 因 为 对 于 很 大 的 n 来 说 ， 这 个 因素 决定 了 ftn) 的 值 


以 查找 和 排序 算法 为 例 ， 如 果 n 就 是 被 查找 的 项 目 或 是 要 排序 的 项 目的 数量 ， 通 常 fn) 就 
是 为 了 将 两 个 项 目 排序 而 需要 在 这 两 个 项 目 之 间 进 行 比较 的 次 数 。 
下 面 概括 介绍 了 一 些 常 用 算法 的 时 间 开 销 以 及 相对 于 程序 运行 时 开销 的 倍数 。 
O(1)， 即 常量 时 间 
最 快 的 算法 的 时 间 开 销 是 常量 时 间 ， 也 就 是 说 ， 它 们 的 开销 是 固定 的 ， 完 全 不 取决 于 输 
入 数据 的 规模 。 常 量 时 间 算 法 就 像 是 “圣杯 ”一 样 ， 如 果 你 找到 它 ， 它 就 具有 难以 置信 
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的 价值 ， 但 是 你 也 可 能 穷 极 一 生 都 找 不 到 它 ， 因 此 要 当心 那些 向 你 兜售 常量 时 间 算 法 的 
陌生 人 。 常 量 的 比例 可 能 非常 高 ， 也 就 是 说 ， 开 销 可 能 只 是 一 次 操作 ， 但 这 次 操作 的 时 
间 可 能 非常 长 。 实 际 上 ， 它 可 能 是 O(n) 伪装 而 成 的 ， 甚 至 可 能 更 精 。 

O(log,n) 
时 间 开 销 比 线性 更 小 。 例 如 ， 一 种 可 以 在 每 一 步 都 将 输入 数据 分 为 两 半 的 查找 算法 ， 其 
时 间 开 和 销 是 O(logyn)。 时 间 开 销 比 线性 更 小 ， 表 示 这 类 算法 的 时 间 开 和 销 的 增长 速度 比 输 
入 数据 规模 的 增长 速度 缓慢 。 因 此 ， 它 们 通常 足够 高 效 ， 以 至 于 许多 情况 下 (但 并 非 所 
有 情况 下 ) 都 无 需 再 去 寻找 更 快 的 算法 。 算 法 的 实现 代码 也 不 会 出 现在 分 析 器 列 出 的 曲 
贵 函 数列 表 中 。 我 们 可 以 在 程序 中 大 量 地 调用 O(logyn) 时 间 开 销 的 算法 ， 而 不 用 担心 这 
会 明显 地 降低 程序 性 能 。 二 分 查找 算法 是 一 种 常用 的 具有 O(logsn) 时 间 开 销 的 算法 。 

O(n)， 即 线性 时 间 
如 果 一 个 算法 的 时 间 开 销 是 0(n)， 那 么 算法 需要 花费 的 时 间 与 输入 数据 的 规模 成 正比 。 
这 种 算法 称 为 线性 时 间 算 法 。 时 间 开 销 是 O(n) 的 算法 通常 是 那些 从 输入 数据 的 一 端 向 
另 一 端 扫 描 ， 直 至 找到 最 小 值 或 最 大 值 的 算法 。 线 性 时 间 算 法 的 时 间 开销 的 增长 速度 与 
其 输入 数据 规模 的 增长 速度 相同 。 这 种 算法 也 并 不 昂贵 ， 即 使 不 断 地 扩大 程序 的 输入 数 
据 的 规模 ， 也 不 必 担 心 会 占用 巨大 的 计算 资源 。 不 过 ， 当 多 种 线性 时 间 算 法 合并 在 一 起 
时 ， 可 能 会 导致 它们 的 时 间 开 销 变 为 O(n ) 或 者 更 差 。 因 此 ， 当 一 个 程序 对 大 型 输入 数 
据 集 的 处 理 时 间 很 长 时 ， 很 可 能 就 是 这 个 原因 。 

O(n logsn) 
算法 可 能 具有 超 线 性 时 间 开 销 。 例 如 ， 许 多 排序 算法 会 在 每 一 步 都 成 对 地 比较 输入 数 
据 ， 并 将 待 排序 的 数据 分 成 两 部 分 。 这 些 算法 的 时 间 开 销 是 O(nlogyn) 。 虽 然 随 着 的 
增加 ， 时 间 开 销 是 O(n logzn) 的 算法 时 间 开 销 相 对 更 大 ， 但 其 增长 速率 是 如 此 之 慢 ， 以 
至 于 通常 情况 下 即使 n 很 大 ， 使 用 这 类 算法 也 没有 问题 。 当 然 ， 还 是 要 避免 在 程序 中 无 
谓 地 调用 这 类 算法 。 

O(n)、O(n ) 等 
有 些 算法 ， 包 括 一 些 比 较 低 效 的 排序 算法 ， 必 须 将 每 个 输入 数据 都 与 其 他 所 有 输入 数据 
进行 比较 。 这 类 算法 的 时 间 开 销 是 Or)。 这 类 算法 的 时 间 开 销 的 增长 速度 非常 快 ， 以 
至 于 让 人 不 免 有 些 担 心 它 在 n 很 大 的 数据 集 上 的 效率 。 对 于 有 些 问 题 ， 简 单 解决 方案 的 
时 间 开 销 是 O(n) 或 O(r)， 而 微妙 一 点 的 解决 方案 的 速度 会 更 快 。 

0O(2") 
0(2"”) 算法 的 时 间 开 销 增 长 得 太 快 了 ， 它 们 应 当 只 被 应 用 于 n 很 小 的 情况 下 。 有 时 ， 这 
是 没 回 题 的。 那些 需要 检查 规模 为 n 的 输入 数据 集中 的 所 有 数据 组 合 的 算法 的 时 间 复 
杂 度 是 0(2”)。 调 度 问 题 和 行程 规划 问题 ， 如 著名 的 旅行 商 问 题 (Traveling Salesman 
Problem) 的 时 间 开 销 是 0(2”)。 如 果 解 决 基本 问题 时 使 用 的 算法 的 时 间 开 销 是 0(2”)， 
那么 开发 人 员 将 面临 几 个 难以 抉择 的 选项 : 使 用 一 种 无 法 确保 最 优 解决 方案 的 启发 式 算 
法 ， 将 解决 方案 限制 在 很 小 的 输入 数据 集 上 ; 或 是 找到 其 他 方法 加 上 与 解决 问题 完全 
无 关 的 值 。 
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表 5-1 估算 了 在 规模 为 n 的 数据 集 上 ， 每 次 操作 耗 时 1 纳 秒 的 情况 下 ， 有 具有 不 同时 间 开 销 
的 各 类 算法 的 执行 时 间 。 读 者 可 以 在 Skiena 的 《算法 设计 手册 》 中 找到 这 个 表 的 完整 版 本 。 


表 5-1: 每 次 操作 耗 时 1 纳 秒 的 情况 下 各 类 算法 的 运行 时 间 














logzn n mlog2n na 2 
10 <1 微 秒 <1 微 秒 <1 微 秒 <1 微 秒 1 微 秒 
20 <1 微 秒 <1 微 秒 <1 微 秒 <1 微 秒 1 微 秒 
30 <1 微 秒 <1 微 秒 <1 微 秒 <1 微 秒 1 秒 
40 <1 微 秒 <1 微 秒 <1 微 秒 1.6 微 秒 18 分 
50 <1 微 秒 <1 微 秒 ”<1 微 秒 25 微 秒 10” 年 
100 <1 微 秒 <1 微 秒 <1 微 秒 10 微 秒 =” 
1000 <1 微 秒 1 微 秒 10 微 秒 ”1 毫秒 中 
10 000 <1 微 秒 10 微 秒 ”130 微 秒 ” 100 毫秒 
100000 ”<1 微 秒 100 微 秒 “2 毫秒 10 秒 me 
1000000 <1 微 秒 1 毫秒 >20 毫秒 17 分 0 





5.1.1 最 优 情况 、 平 均 情况 和 最 差 情况 的 时 间 开 销 

通常 的 大 0 标记 假设 算法 对 任意 输入 数据 集 的 运行 时 间 是 相同 的 。 不 过 ， 有 些 算法 对 输入 
数据 的 特性 非常 敏感 ， 例 如 ， 它 们 在 按照 某 种 顺序 排序 的 输入 数据 上 的 运行 速度 ， 可 能 比 
在 其 他 规模 相同 但 顺序 不 同 的 输入 数据 上 的 运行 速度 上 要 快 。 当 考虑 在 有 严格 的 性 能 需求 
的 代码 中 使 用 哪 种 算法 时 ， 非 常 重要 的 一 点 是 必须 知道 该 算法 是 否 有 最 差 情况 。 我 们 将 在 
5.4.1 疝 中 举例 进行 讲解 。 


有 些 算法 在 最 优 情况 下 同样 也 具有 最 优 时 间 开 销 ， 例 如 ， 对 那些 已 经 排序 完成 或 是 几乎 排 
序 完成 的 输入 数据 集 进行 排序 时 的 时 间 开销 会 较 小 。 当 输入 数据 集 具有 某 些 可 以 利用 的 特 
性 时 (例如 几乎 排序 完成 )， 选 择 一 种 在 最 优 情况 下 上 其 有 最 佳 性 能 的 算法 可 以 减少 程序 的 
运行 时 间 。 


5.1.2 ” 摊 销 时 间 开 销 

摊 销 时 间 开 销 表 示 在 大 量 输 入 数据 上 的 平均 时 间 开 销 。 例 如 ， 向 堆 中 插入 一 个 元 素 的 时 
间 复 杂 度 是 OOog)， 那么 如 果 每 次 插入 一 个 元 素 ， 构 建 整个 堆 的 时 间 就 是 O(n logy)。 
不 过 ， 构 建 堆 的 最 高 效 方法 的 时 间 开 销 是 O(n)， ee 
间 复 杂 度 是 0(1)。 但 是 最 高 效 的 算法 并 不 会 每 次 只 重 入 一 个 元 素 。 它 会 使 用 分 治 法 算法 
(divide-and-conquer algorithm) 将 所 有 数据 插入 到 依次 增 大 的 子 堆 中 。 


最 显著 的 摊 销 时 间 开 销 ， 发 生 在 当 某 些 独立 的 操作 很 快 而 其 他 操作 很 慢 时 。 例 如 ， 将 一 个 
字符 添加 到 std: :string 中 的 摊 销 时 间 开 销 是 一 个 常量 ， 但 这 其 中 包含 了 一 次 对 内 存 管理 
器 的 调用 所 占用 的 部 分 时 间 。 如 果 这 个 字符 串 很 短 ， 那 么 可 能 几乎 每 次 在 添加 字符 的 时 候 
都 需要 调用 内 存 管理 器 。 只 有 当 程 序 再 添加 了 数 千 个 或 是 数 百 万 个 字符 后 ， 摊 销 时 间 开 销 
才 会 变 小 。 

























































































5.1.3 其 他 开销 

有 上 时候， 通过 保存 中 间 结 果 可 以 提高 算法 的 速度 。 因 此 ， 这 种 算法 不 仅 有 时 间 开 销 ， 还 有 
额外 的 存储 开销 。 例 如 ， 我 们 所 熟知 的 遍历 二 又 树 的 递归 算法 的 时 间 开 销 是 线性 的 ， 但 是 
在 递归 过 程 中 还 会 发 生 额 外 的 logn 的 栈 空 间 存 储 开 销 。 需 要 大 量 存储 空间 开销 的 算法 可 
能 不 适用 于 内 存 容量 很 小 的 运行 环境 。 

另外 还 有 一 些 算法 在 进行 并 行 计 算 时 会 更 快 ， 但 是 需要 购买 相应 数量 的 处 理 器 来 获取 理论 
上 的 速度 提升 。 在 普通 的 计算 机 上 ， 处 理 器 的 数量 很 少 ， 也 是 固定 的 。 因 此 ， 对 于 那些 需 
要 多 于 logyn 个 处 理 器 的 算法 来 说 ， 使 用 普通 计算 机 不 合适 。 这 些 算法 可 能 适用 于 为 特殊 
用 途 构 建 的 硬件 或 是 图 形 处 理 器 上 。 不 过 遗憾 的 是 ， 由 于 篇 幅 限 制 ， 本 书 将 不 会 讲解 如 何 
设计 并 行 算法 。 


5.2 优化 查找 和 排序 的 工具 箱 


在 优化 查找 和 排序 的 工具 箱 中 只 有 下 面 这 三 个 工具 。 

。 用 平均 时 间 开 销 更 低 的 算法 替换 平均 时 间 开销 较 大 的 算法 。 

。 加 深 对 数据 的 理解 (例如 ， 知 道 数 据 是 已 经 排序 完成 的 或 是 几乎 排序 完成 的 )， 然 后 根 
据 数 据 的 特性 选择 具有 最 优 时 间 开 销 的 算法 ， 避 人 免 使 用 那些 针对 这 些 数据 特性 有 较 差 时 
间 开 销 的 算法 。 

。 调整 算法 来 线性 地 提高 其 性 能 。 

我 将 会 在 第 9 章 中 讲解 如 何 使 用 这 些 工 具 。 


5.3 高效 查 找 算 法 

在 每 门 本 科 计 算 机 科学 课程 中 都 会 介绍 最 重要 的 查找 和 排序 算法 的 时 间 开 销 ， 所 有 的 开发 
人 员 在 他 们 大 学 生涯 早期 都 会 记 住 这 些 知 识 。 本 科 的 算法 和 数据 结构 课程 的 问题 在 于 太 过 
简短 。 教 师 要 么 会 深入 地 讲解 几 种 算法 ， 教 会 大 家 如 何 分 析 时 间 开 销 ; 要 么 会 肤浅 地 介绍 
许多 算法 ， 告 诉 学 生 记 住 它 们 的 时 间 开 销 。 教 师 可 能 同时 还 会 教授 如 何 进 行 编程 。 结 果 是 
学 生 在 结 课时 学 到 了 很 多 新 知识 ， 但 是 却 不 知道 他 们 遗漏 了 许多 细节 。 这 些 不 完整 的 知识 
会 存在 即使 在 使 用 了 最 优 算法 的 情况 下 仍然 有 优化 的 可 能 性 。 


5.3.1 查找 算法 的 时 间 开 销 

在 大 0O 标记 中 ， 多 快 才 是 最 快 的 查找 表 的 方法 呢 ? 提示 : 时 间 开 销 为 OUlog2m) 的 二 分 查找 

是 一 个 有 用 的 基准 值 ， 但 它 并 不 是 最 快 的 。 

可 能 有 些 读者 会 说 :“ 等 等 ， 你 在 说 什么 啊 ? ”他 们 只 学 习 过 线性 查找 和 二 分 查找 ， 但 是 

实际 上 存在 着 许多 种 查找 算法 。 

。 线性 查找 算法 的 时 间 开 销 为 O(n)， 它 的 开销 虽然 大 ， 却 极其 常用 。 它 可 以 用 于 无 序 表 。 
即使 无 法 对 表 中 的 关键 字 进 行 排 序 ， 只 要 能 够 比较 关键 字 是 否 相 等 ， 即 可 使 用 它 。 对 于 
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5. 


有 序 表 ， 线 性 查找 算法 可 以 在 查找 完 表 中 的 所 有 元 素 之 前 结束 。 虽 然 它 的 时 间 开销 仍然 
是 O(n)， 但 是 平均 速度 的 确 比 原来 快 了 一 倍 。 
如 果 允 许 改变 表 ， 一 种 将 每 次 查找 结果 都 移动 至 表 头 的 线性 查找 算法 在 某 些 情况 下 可 
能 会 有 更 高 的 性 能 。 例 如 ,每 次 在 表达 式 中 用 到 标识 符 时 ， 都 会 去 查找 编译 器 中 的 符号 
表 。 如 果 程 序 中 有 很 多 形 如 1 = i + 1; 的 表达 式 ， 这 项 优化 就 可 以 使 线性 算法 有 用 武 
之 地 了 。 

二 分 查找 算法 的 时 间 开 销 是 Odogx)， 效 率 更 高 ， 但 它 并 不 是 可 能 的 最 好 的 查找 算法 。 
二 分 查找 算法 要 求 表 已 经 按照 查找 关键 字 排 序 完成 ， 不 仅 需要 可 以 比较 查找 关键 字 是 否 
相等 ， 还 需要 可 以 比较 它们 之 间 的 大 小 关系 。 

在 查找 和 排序 世界 中 ， 二 分 查找 是 最 常用 的 算法 。 它 是 一 种 分 治 法 算法 ， 通 过 将 待 排序 
元 素 的 关键 字 与 位 于 表 中 间 的 元 素 的 关键 字 进 行 比较 ， 来 决定 该 元 素 究竟 是 排 在 中 间 元 
素 之 前 还 是 之 后 ， 不 断 地 将 表 一 分 为 二 。 

插 补 查找 (interpolation search) 与 二 分 查找 类 似 ， 也 是 将 有 序 表 分 为 两 部 分 ， 不 过 它 用 
到 了 查找 关键 字 的 一 些 其 他 特性 来 改善 分 块 性 能 。 当 查找 关键 字 均 匀 分 布 时 ， 播 补 查 找 
的 性 能 可 以 达到 非常 高 效 的 O(log log n) 。 如 果 表 很 大 或 是 测试 表 项 的 成 本 很 高 (例如 
当 在 一 个 旋转 盘 上 时 )， 这 种 改善 效果 是 非常 显著 的 。 不 过 ， 插 补 查 找 仍 然 不 是 可 能 的 
最 快 的 查找 算法 。 

通过 散 列 法 ， 即 将 查找 关键 字 转 换 为 散 列表 中 的 数组 索引 ， 是 可 以 以 平均 0(1) 的 时 间 
找 出 一 条 记录 的 。 散 列 法 无 法 工作 于 键 值 对 的 链表 上 ， 它 需要 一 种 特殊 结构 的 表 。 它 
只 需要 比较 散 列 表 项 是 否 相 等 即 可 。 散 列 法 在 最 差 情况 下 的 性 能 是 O(n)， 而 且 它 所 需 
要 的 散 列表 项 的 数量 可 能 比 要 查找 的 记录 的 数量 多 。 不 过 ， 当 表 的 内 容 是 固定 时 (例如 
月 份 的 名 字 或 是 编程 语言 的 关键 字 ) ， 就 不 会 发 生 最 差 情况 了 。 


3.2” 当 n 很 小 时 ， 所 有 算法 的 时 间 开 销 都 一 样 

























































































查找 只 有 一 个 表 项 的 表 的 开销 是 多 大 呢 ? 这 时 ， 不 同 算法 的 开销 是 不 同 的 吗 ? 表 5-2 展示 
了 使 用 可 能 的 最 好 版 本 的 线性 查找 算法 、 二 分 查找 算法 和 散 列 查找 算法 查找 一 个 有 序 表 
的 开销 。 答 案 是 对 于 小 型 表 ， 所 有 方法 检查 的 表 项 的 数量 是 相同 的 。 不 过 ， 对 于 一 个 有 
100 000 项 的 表 ， 所 检查 的 表 项 的 数量 将 会 变 得 大 不 相同 ， 所 需 的 时 间 将 遵从 时 间 开 销 函 数 。 
表 5-2: 表 规 模 与 要 访问 的 表 项 的 数量 

表 规 模 ”线性 查找 算法 ”二 分 查找 算法 ” 散 列 法 























1 1 和 1 
和 1 2 1 
4 2 3 1 
8 4 4 1 
16 8 5 1 
26 13 6 业 
32 16 6 1 
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5.4 高 效 排 序 算法 

排序 算法 种 类 繁多 ， 其 中 许多 是 在 最 近 10 年 才 提出 的 。 许 多 比较 新 的 排序 算法 都 是 改善 了 

最 佳 情况 性 能 或 是 最 差 情况 性 能 的 混合 型 算法 。 如 果 你 是 在 2000 年 之 前 完成 了 计算 机 科学 

学 习 的 ， 那 么 应 该 花费 时 间 去 阅读 一 下 相关 文献 。 维 基 百 科 上 有 对 排序 算法 的 全 面 总 结 。 

下 面 是 一 些 在 算法 课程 中 没有 提 到 过 的 有 趣事 实 ， 它 们 证 明了 深入 研究 是 非常 有 益 的 。 

。“ 每 个 人 都 知道 ”最 佳 排序 算法 的 时 间 开销 是 O(n logyn)， 对 吧 ? 错 ， 又 错 了 。 只 有 成 对 
地 比较 输入 值 的 算法 才 是 这 样 的 。 基 数 排序 算法 (将 输入 数据 反复 地 分 到 一 个 或 个 桶 
中 的 排序 算法 ) 的 时 间 开 销 是 O(n log,n)， 其 中 + 是 基数 ， 即 排序 桶 的 个 数 。 在 大 型 输 
入 数据 集 上 ， 它 的 效率 比比 较 排序 算法 更 高 。 而 且 ， 如 果 要 排序 的 关键 字 属 于 某 个 特定 
的 集合 ， 例 如 从 1 到 的 连续 整数 ，Flash Sort 的 排序 时 间 开 销 是 O(n)。 

。 快速 排序 算法 是 一 种 经 常 被 实现 和 使 用 的 算法 ， 它 的 最 差 情况 下 的 性 能 是 O(n )。 没 有 
可 靠 的 方法 可 以 避免 最 差 情况 ， 而 且 它 的 原生 实现 方式 的 效率 很 差 。 

。 有 些 排 序 算法 ， 包 括 插 入 排序 算法 ， 虽 然 并 非 非 常 适 合用 于 随机 数据 ， 但 在 几乎 排序 完 
成 的 数据 集 上 却 具 有 非常 棒 的 (线性 ) 效率 。 其 他 排序 算法 (例如 之 前 提 到 过 的 原生 快 
速 排序 算法 ) 在 已 经 排序 完成 或 是 几乎 排序 完成 的 数据 集 上 会 出 现 最 差 情况 的 性 能 。 如 

果 通 常数 据 都 是 已 经 排序 完成 或 是 几乎 排序 完成 的 ， 那 么 利用 这 些 额 外 的 数据 特性 可 以 

帮助 我 们 选择 一 种 在 有 序 表 上 有 具有 更 高 性 能 的 排序 算法 。 


5.4.1 排序 算法 的 时 间 开 销 

表 5-3 列举 出 了 几 种 排序 算法 对 于 最 好 情况 、 平 均 情 况 和 最 差 情况 下 的 输入 数据 的 时 间 复 
杂 度 。 虽 然 这 些 算 法 中 大 多 数 的 平均 性 能 都 是 O(n logyn)， 但 它们 在 最 好 情况 和 最 差 情 况 
下 的 性 能 是 不 同 的 ， 而 且 所 消耗 的 额外 的 内 存 空间 也 不 同 。 

表 5-3: 一 些 排序 算法 的 时 间 开 销 

排序 算法 ”最 好 情况 平均 情况 最 差 情况 ”空间 需求 最 好 /最 差 情况 的 注意 点 








































































































插入 排序 mn 7 1 最 好 情况 出 现在 当 数 据 集 已 经 排序 完成 或 是 几乎 
排序 完成 时 
快速 排序 nlogn nlogn 厂 logn 最 差 情 况 出 现在 数据 集 已 经 排序 完成 或 是 支点 元 








素 的 原生 选择 (第 一 个 /最 后 一 个 ) 





归并 排序 “nlogn nlogn nlogn 1 
树 形 排序 “nlogn nlogn nlogn n 
维 排 序 nlogn nlogn nlogn 1 
n 
1 








最 好 情况 出 现在 当 数 据 集 已 经 排序 完成 时 


Timsort’ nn nlogn nlogn 


内 省 排序 ”nlogxn nlogn nlogn 


5.4.2 ”替换 在 最 差 情况 下 性 能 较 差 的 排序 算法 


快速 排序 算法 一 种 非常 流行 的 排序 算法 。 它 内 部 的 开销 非常 小 ， 而 且 对 于 基于 比较 两 个 查 























注 1: 是 一 个 对 归并 排序 做 了 大 量 优化 的 版 本 。 一 一 译 者 注 
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找 关 键 字 的 排序 ， 它 的 平均 性 能 是 最 优 的 。 但 是 ， 快 速 排 序 算 法 也 有 缺陷。 如 果 你 在 已 经 
排序 完成 〈 或 是 几乎 排序 完成 ) 的 数组 上 使 用 快速 排序 算法 ， 而 且 使 用 第 一 个 或 最 后 一 个 
元 素 作为 支点 元 素 ， 那 么 它 的 性 能 是 非常 差 的 。 复 杂 的 快速 排序 算法 的 实现 方式 多 数 情况 
下 都 可 以 通过 随机 选择 支点 元 素来 克服 这 个 缺点 ， 或 是 消耗 额外 的 CPU 周期 去 计算 中 值 ， 
然后 将 它 作 为 初始 支点 元 素 。 因 此 ， 如 果 认 为 快速 排序 算法 总 是 具有 优秀 的 性 能 ， 是 非常 
天 真 的 想法 。 你 必须 对 输入 数据 集 有 所 了 解 ， 特 别 是 知道 它 是 否 已 经 排序 完成 ， 要 么 对 算 
法 的 实现 有 所 了 解 ， 知 道 它 是 否 仔细 地 得 选 了 初始 支点 元 素 。 


如 有 果 你 对 输入 数据 集 一 无 所 知 ， 那 么 归并 排序 、 树 形 排序 和 扒 排 序 都 可 以 确保 不 会 发 生性 
能 变 得 无 法 接受 的 最 坏 情况 。 


5.4.3 利用 输入 数据 集 的 已 知 特性 

如 果 你 知道 输入 数据 集 已 经 排序 完成 或 是 几乎 排序 完成 ， 通 常情 况 下 性 能 差 得 让 人 无 法 接 
受 的 插入 排序 算法 反而 在 这 些 数 据 上 的 性 能 很 棒 ， 达 到 了 O(n)。 

Timsort 是 一 种 相对 较 新 的 混合 型 排序 算法 ， 它 在 输入 数据 集 已 经 排序 完成 或 是 几乎 排序 
完成 时 ， 人 性 能 也 能 达到 O(n)， 而 对 于 其 他 情况 ， 最 优 性 能 则 是 O(n log2n)。Timsort 现在 已 
经 成 为 Python 语言 的 标准 排序 算法 了 。 

最 近 还 出 现 了 一 种 称 为 内 省 排序 (introsort) 的 算法 ， 它 是 快速 排序 和 堆 排 序 的 混合 形式 。 
内 省 排序 首先 以 快速 排序 算法 开始 进行 排序 ， 但 是 当 输 入 数据 集 导 致 快速 排序 的 递归 深度 
太 深 时 ， 会 切换 为 堆 排 序 。 内 省 排序 可 以 确保 在 最 差 情况 下 的 时 间 开 销 是 O(n logzn) 的 同 
时 ， 利 用 了 快速 排序 算法 的 高 效 实现 来 减少 平均 情况 下 的 运行 时 间 。 自 C++11 开始 ， 内 省 
排序 已 经 成 为 了 std: :sort() 的 优先 实现 。 


另外 一 种 最 近 非 常 流行 的 算法 是 Flash Sort。 对 于 抽取 自 某 种 概率 分 布 的 数据 ， 它 的 性 能 非 
常 棒 ， 达 到 了 O(n)。Flash Sort 是 与 基数 排序 类 似 ， 都 是 基于 概率 分 布 的 百 分 位 将 数据 排 
序 至 桶 中 。Flash Sort 的 一 个 简单 的 适用 场景 是 当 数据 元 素 均匀 分 布 时 。 


5.5 优化 模式 


经 验 丰富 的 开发 人 员 不 会 只 凭借 自己 独特 的 直觉 去 寻找 改善 性 能 的 机 会 。 那 些 被 优化 的 代 
码 中 其 实 是 存在 着 优化 模式 的 。 开 发 人 员 研 究 算法 和 数据 结构 的 原因 之 一 是 其 中 强 含 着 用 
于 改善 性 能 的 “思维 库 ”。 


在 本 节 中 ， 我 收集 了 一 些 用 于 改善 性 能 的 通用 技巧 。 它 们 非常 实用 ， 和 希望 读者 能 加 以 注 
意 。 读 者 可 能 会 发 现 其 中 的 一 些 模式 是 大 家 所 数 熟悉 的 数据 结构 、C++ 语言 特性 或 是 硬件 
创新 的 核心 。 
预计 算 
可 以 在 程序 早期 ， 例 如 设计 时 、 编 译 时 或 是 链接 时 ， 通 过 在 热点 代码 前 执行 计算 来 将 计 
算 从 热点 部 分 中 移 除 。 
延迟 计算 
通过 在 真正 需要 执行 计算 时 才 执行 计算 ， 可 以 将 计算 从 某 些 代码 路 径 上 移 除 。 
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批量 处 理 

每 次 对 多 个 元 素 一 起 进行 计算 ， 而 不 是 一 次 只 对 一 个 元 素 进行 计算 。 
绥 丰 
通过 保存 和 复 用 昂贵 计算 的 结果 来 减少 计算 量 ， 而 不 是 重复 进行 计算 。 
特 化 
通过 移 除 未 使 用 的 共性 来 减少 计算 量 。 
提高 处 理 量 
通过 一 次 处 理 一 大 组 数据 来 减少 循环 处 理 的 开销 。 








通过 在 代码 中 加 入 可 能 会 改善 性 能 的 提示 来 减少 计算 量 。 

优化 期 待 路 径 
以 期 待 频率 从 高 到 低 的 顺序 对 输入 数据 或 是 运行 时 发 生 的 事件 进行 测试 。 

散 列 法 
计算 可 变 长 度 字符 串 等 大 型 数据 结构 的 压缩 数值 映射 ( 散 列 值 )。 在 进行 比较 时 ， 用 散 
列 值 代替 数据 结构 可 以 提高 性 能 。 

双重 检查 
通过 先进 行 一 项 开销 不 大 的 检查 ， 然 后 只 在 必要 时 才 进 行 另外 一 项 开销 昂贵 的 检查 来 减 
少 计算 量 。 


5.5.1 预计 算 
预计 算是 一 种 常用 的 技巧 ， 通 过 在 程序 执行 至 热点 代码 之 前 ， 先 提前 进行 计算 来 达到 从 热点 
代码 中 移 除 计算 的 目的 。 预 计算 有 多 种 不 同 的 形式 ， 既 可 以 将 计算 从 热点 代码 移 至 程序 中 不 
那么 热点 的 部 分 ， 也 可 以 移动 至 程序 链接 时 、 编 译 时 和 设计 时 。 通 常 ， 越 早 进行 计算 越 好 。 
预计 算 仅 当 被 计算 的 值 不 依赖 于 上 下 文 时 才 适 用 。 编 译 器 能 够 对 以 下 的 表达 式 进 行 预计 
算 ， 因 为 它 不 依赖 于 程序 中 的 任何 东西 ; 
int sec per_day = 60 * 60 * 24; 
而 下 面 这 种 相关 的 计算 则 依赖 于 程序 中 的 变量 : 
int sec_per_weekend = (date end - date beginning + 1) * 60 * 60 * 24; 
预计 算 的 关键 在 于 要 么 注意 到 (date_end - date_beginning + 1) 在 程序 中 是 一 个 不 会 改变 
的 值 ， 因 此 可 以 用 2 替代 它 ， 要 么 对 表达 式 中 可 以 被 预计 算 的 部 分 提取 因子 。 
以 下 是 预计 算 的 几 个 例子 。 
。 C++ 编译 器 会 使 用 编译 器 内 建 的 相关 性 规则 和 运算 符 优先 级 ， 对 当量 表达 式 的 值 自动 地 
进行 预计 算 。 编 译 器 对 上 例 中 的 sec_per_day 的 值 进行 预计 算是 没有 问题 的 。 
。 编译 器 会 在 编译 时 评估 调用 模板 函数 时 所 用 到 的 参数 。 如 果 参 数 是 常量 的 话 ， 编 译 器 会 
生成 高 效 代 码 。 
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。 当 设 计 人 员 可 以 观察 到 ， 例 如 ， 当 在 一 段 程序 的 上 下 文中 ,“ 周 末 ” 的 概念 总 是 两 天 ， 
那么 他 可 以 在 编写 程序 的 时 候 预 计算 这 个 常量 。 


5.5.2 ”延迟 计算 


延迟 计算 的 目的 在 于 将 计算 推迟 至 更 接近 真正 需要 进行 计算 的 地 方 。 延 迟 计 算 带 来 了 一 些 
好 处 。 如 果 没 有 必要 在 茶 个 函数 中 的 所 有 执行 路 径 (if-then-else 逻辑 的 所 有 分 支 ) 上 都 
进行 计算 ， 那 就 只 在 需要 结果 的 路 径 上 进行 计算 。 以 下 是 延迟 计算 的 例子 。 
两 段 构 建 (two-part construction ) 
当 实 例 能 够 被 静态 地 构建 时 ， 经 常会 缺少 构建 对 象 所 需 的 信息 。 在 构建 对 象 时 ， 我 们 并 
不 是 一 气 呵 成 ， 而 是 仅 在 构造 国 数 中 编写 建立 空 对 象 的 最 低 限 度 的 代码 。 稍 后 ， 程 序 再 
调用 该 对 象 的 初始 化 成 员 函 数 来 完成 构建 。 将 初始 化 推迟 至 有 足够 的 额外 数据 时 ， 意 
着 被 构建 的 对 象 总 是 高 效 的 、 局 平 的 数据 结构 〈 请 参见 6.7 节 )。 
在 某 些 情况 下 ， 检 查 延 迟 计 算 的 值 是 否 已 经 计算 完成 会 产生 额外 的 开销 。 这 种 开销 与 确 
保 指向 动态 构建 的 类 的 指针 是 有 效 的 开销 相当 。 
写 时 复制 
写 时 复制 是 指 当 一 个 对 象 被 复制 时 ， 并 不 复制 它 的 动态 成 员 变 量 ， 而 是 让 两 个 实例 共享 
动态 变量 。 只 在 其 中 某 个 实例 要 修改 该 变量 时 ， 才 会 真正 进行 复制 。 


5.5.3 批量 处 理 


批量 处 理 的 目标 是 收集 多 份 工作 ， 然 后 一 起 处 理 它们 。 批 量 处 理 可 以 用 来 移 除 重复 的 函数 
调用 或 是 每 次 只 处 理 一 个 项 目 时 会 发 生 的 其 他 计算 。 当 有 更 高 效 的 算法 可 以 处 理 所 有 输入 
数据 时 ， 也 可 以 使 用 批量 处 理 将 计算 推迟 至 有 更 多 的 计算 资源 可 用 时 。 举 例如 下 。 


。 缓存 输出 是 批量 处 理 的 一 个 典型 例子 。 输 出 字符 会 一 直 被 缓存 ， 直 至 缓存 满 了 或 是 程序 
遇 到 行 尾 \(EOL) 符 或 是 文件 末尾 (EOF) 符 。 相 比 于 为 每 个 字符 都 调用 输出 例 程 ， 将 
整个 缓存 传递 给 输出 例 程 节 省 了 性 能 开销 。 

。 将 一 个 未 排序 的 数组 转换 为 扒 的 最 优 方法 是 通过 批量 处 理 使 用 更 高 效 算 法 的 一 个 例子 。 

将 nn 个 元 素 一 个 一 个 地 插入 到 堆 中 的 时 间 开 销 是 O(n log2n)， 而 一 次 性 构建 整个 堆 的 开 
销 则 只 有 O(n)。 

。 多 线程 的 任务 队列 是 通过 批量 处 理 高 效 地 利用 计算 资源 的 一 个 例子 。 

。 在 后 台 保 存 或 更 新 是 使 用 批量 处 理 的 一 个 例子 。 


5.5.4 缓存 

缓存 指 的 是 通过 保存 和 复 用 昂贵 计算 的 结果 来 减少 计算 量 的 方法 。 这 样 可 以 避免 在 每 次 需 
要 计算 结果 时 都 重新 进行 计算 。 举 例如 下 。 

。 就 像 用 于 解 引 数组 元 素 的 计算 一 样 ， 编 译 器 也 会 缓存 短小 的 、 重 复 的 代码 块 的 结果 。 当 
编译 器 发 现 了 像 a[i][j] = a[i]J[j] + c; 这 样 的 语句 后 会 保存 数组 表达 式 ， 然 后 生成 一 
段 像 这 样 的 代码 : auto p = &a[i][j]; *p = *p + Cc;。 
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。 高 速 缓存 指 的 是 计算 机 中 使 处 理 器 可 以 更 快 地 访问 那些 需要 频繁 访问 的 内 存 地 址 的 特殊 

电路 。 缓 存 是 计算 机 硬件 设计 中 的 一 个 重要 概念 。 在 x86 架构 的 PC 的 硬件 和 软件 中 有 
多 级 缓存 。 

。 在 每 次 需要 知道 C 风格 的 字符 串 的 长 度 时 ， 都 必须 计算 字符 的 数量 ， 而 std: :string 则 
会 缓存 字符 串 的 长 度 ， 不 会 在 每 次 需要 时 都 进行 计算 。 

。 线程 池 缓存 了 那些 创建 开销 很 大 的 线程 。 

。 动态 规划 是 一 项 算法 技术 ， 通 过 计算 子 问题 并 缓存 结果 来 提高 具有 递归 关系 的 计算 
的 速度 。 


5.5.5 ” 特 化 
特 化 与 泛 化 相对 。 特 化 的 目的 在 于 移 除 在 某 种 情况 下 不 需要 执行 的 昂贵 的 计算 。 


通过 移 除 那些 导致 计算 变 得 昂贵 的 特性 可 以 简化 操作 或 是 数据 结构 ， 但 是 在 特定 情况 下 ， 
这 是 没有 必要 的 。 可 以 通过 放松 问题 的 限制 或 是 对 实现 附加 限制 来 实现 这 一 点 ， 例 如 ， 使 
动态 变 为 静态 ， 限 制 不 受 限 制 的 条 件 ， 等 等 。 举 例如 下 。 


。 模板 函数 std: :swap() 的 默认 实现 可 能 会 复制 它 的 参数 。 不 过 ， 开 发 人 员 可 以 基于 对 数 
据 结 构 内 部 的 了 解 提 供 一 种 更 高 效 的 特 化 实现 。( 当 参数 类 型 实现 了 移动 构造 函数 时 ， 
C++11 版 本 的 std: :swap() 会 使 用 移动 语义 提高 效率 。) 

。 std::string 可 以 动态 地 改变 长 度 ， 容 纳 不 定 长 度 字符 的 字符 串 。 它 提供 了 许多 操作 来 
操纵 字符 串 。 如 果 只 需要 比较 固定 的 字符 串 ， 那 么 使 用 C 风格 的 数组 或 是 指向 字面 字 
符 串 的 指针 以 及 一 个 比较 函数 会 更 加 高 效 。 


5.5.6 ”提高 处 理 量 
提高 处 理 量 的 目标 是 减少 重复 操作 的 选 代 次 数 ， 削 减 重复 操作 带 来 的 开销 。 这 些 策略 如 下 。 


。 向 操作 系统 请 求 大 量 输入 数据 或 是 或 发 送 大 量 输出 数据 ， 来 减少 为 少量 内 存 块 或 是 独立 
的 数据 项 调用 内 核 而 产生 的 开销 。 提 高 处 理 量 的 副作用 是 ， 当 程序 骨 泪 ， 特 别 是 在 写 数 
据 时 崩溃 时 ， 损 失 的 数据 量 更 大 。 对 写 日 志文 件 等 操作 来 说 ， 这 可 能 会 是 一 个 问题 。 

。 在 移动 缓存 或 是 清除 缓存 时 ， 不 要 以 字 市 为 单位 ， 而 要 以 字 或 是 长 字 为 单位 。 这 项 优化 
仅 在 两 块 内 存 对 齐 至 相同 大 小 的 边界 时 才能 改善 性 能 。 

。 以 字 或 是 长 字 来 比较 字符 串 。 这 项 优化 仅 适 用 于 大 端 计 算 机 ， 不 适用 于 小 端的 x86 架构 
计算 机 (请 参见 2.2.4 节 )。 像 这 种 依赖 于 计算 机 架构 的 技巧 可 能 会 非常 危险 ， 因 为 它们 
是 不 可 移植 的 。 

。 在 唤醒 线程 时 执行 更 多 的 工作 。 在 唤醒 线程 后 ， 不 要 只 让 处 理 器 执行 一 个 工作 单元 后 就 
放弃 它 ， 应 当 让 它 处 理 多 个 工作 单元 。 这 样 可 以 市 省 重复 唤醒 线程 的 开销 。 

。 不 要 在 每 次 循环 中 都 执行 维护 任务 ,而 应 当 每 循环 10 次 或 是 100 次 再 执行 一 次 维护 任务 。 





























































































































5.5.7 提示 
使 用 提示 来 减少 计算 量 ， 可 以 达到 减少 单个 操作 的 开销 的 目的 。 
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例如 ，std: :map 中 有 一 个 重 载 的 insert() 成 员 函 数 ， 它 有 一 个 表示 最 优 插 入 位 置 的 可 选 
参数 。 最 优 提示 可 以 使 插入 操作 的 时 间 开 销 变 为 O(1)， 而 不 使 用 最 优 提示 时 的 时 间 开 销 
则 是 OUlogm)。 


5.5.8 优化 期 待 路 径 


在 有 多 个 else-if 分 支 的 if-then-else 代码 块 中 ， 如 果 条 件 语句 的 编写 顺序 是 随机 的 ， 那 
人 都 有 大 约 一 半 的 条 件 语句 会 被 测试 。 如 果 有 一 种 
情况 的 发 生 几 率 是 95%， 而且 首 先 对 它 进行 条 件 测试 ， 那 么 在 95% 的 情况 下 都 只 会 执行 
一 次 测试 。 


5.5.9 散 列 法 


大 型 数据 结构 或 长 字符 串 会 被 一 种 算法 处 理 为 一 个 称 为 散 列 值 的 整数 值 。 通 过 比较 两 个 输 
入 数据 的 散 列 值 ， 可 以 高 效 地 判断 出 它们 是 否 相 等 。 如 果 散 列 值 不 同 ， 那 么 这 两 个 数据 绝 
对 不 相等 。 如 果 散 列 值 相等 ， 那 么 输入 数据 可 能 相等 。 散 列 法 可 与 双重 检查 一 起 使 用 ， 以 
优化 条 件 判断 处 理 的 性 能 。 通 常 ， 输 入 数据 的 散 列 值 都 会 被 缓存 起 来 ， 这 样 就 无 需 重复 地 
计算 散 列 值 。 


5.5.10 ”双重 检查 


双重 检查 是 指 首 先 使 用 一 种 开销 不 大 的 检查 来 排除 部 分 可 能 性 ， 然 后 在 必要 时 再 使 用 一 个 
开销 很 大 的 检查 来 测试 剩余 的 可 能 性 。 举 例如 下 。 


。 双重 检查 常 与 缓存 同时 使 用 。 当 处 理 器 需要 某 个 值 时 , 首先 会 去 检查 该 值 是 否 在 缓存 中 ， 

如 果 不 在 ， 则 从 内 存 中 获取 该 值 或 是 通过 一 项 开销 大 的 计算 来 得 到 该 值 。 

。 当 比 较 两 个 字符 串 是 否 相等 时 ， 通 常 需要 对 字符 串 中 的 字符 逐一 进行 比较 。 不 过 ， 首 先 
比较 这 两 个 字符 串 的 长 度 可 以 很 快 地 排除 它们 不 相等 的 情况 

。 双重 检查 可 以 用 于 散 列 法 中 。 首 先 比较 两 个 输入 数据 的 散 列 值 ， 可 以 高 效 地 判断 它们 是 
否 不 相等 。 如 果 散 列 值 不 同 ， 那 么 它们 肯定 不 相等 。 只 有 当 散 列 值 相等 时 才 需 要 逐 字 闻 
地 进行 比较 。 


5.6 小结 


。 注意 那些 推销 常量 时 间 算 法 的 陌生 人 。 这 些 算 法 的 时 间 开 销 可 能 是 O(n)。 

。 混合 使 用 多 种 高 效 算法 可 能 会 导致 它们 的 整体 运行 时 间 变 为 O(n ) 或 是 更 差 。 

。 时 间 开 销 为 Odogz) 的 二 分 查找 算法 并 非 最 快 的 查找 算法 。 插 补 查找 法 的 时 间 开 销 是 
O(log log n)， 散 列 法 的 时 间 开销 是 常量 时 间 。 

。 对 于 表 项 数量 小 于 4 的 表 ， 所 有 查找 算法 所 检查 的 表 项 的 数量 几乎 都 是 相同 的 。 
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因为 钱 都 放 在 那里 。 
一 一 银行 抢劫 犯 感 利 . 萨 顿 : (1901 一 1980) 


这 向 话 引 用 自 1952 年 萨 顿 对 记者 提出 的 “为 什么 你 要 抢劫 银行 ”这 一 问题 的 回 
答 。 后 来 萨 顿 否认 他 曾经 说 过 这 向 话 。 
除了 使 用 非 最 优 算法 外 ， 乱 用 动态 分 配 内 存 的 变量 就 是 C++ 程序 中 最 大 的 “性 能 杀手 ” 
了 。 改 善 程序 对 动态 分 配 内 存 的 变量 的 使 用 往往 如 同 “ 钱 都 放 在 那里 ， 以 至 于 开发 人 员 
只 要 知道 如 何 减 少 对 内 存 管理 器 的 调用 就 可 以 成 为 优秀 的 性 能 优化 专家 。 
C++ 中 的 一 些 特性 使 用 标准 库容 器 、 智 能 指针 和 字符 串 等 动态 分 配 内 存 的 变量 。 这 些 特 
性 可 以 提高 C++ 程序 的 编写 效率 。 但 是 ， 这 种 强大 力量 也 有 副作用 。 当 发 生性 能 问题 时 ， 
new 就 不 再 是 你 的 好 朋友 了 。 
不 要 惊慌 ， 优 化 内 存 管 理 的 目标 并 不 是 避免 使 用 用 到 动态 分 配 内 存 的 变量 的 C++ 特性 。 
相反 ， 它 的 目标 是 通过 巧妙 地 使 用 这 些 特 性 移 除 对 内 存 管理 器 的 无 谓 的 、 会 降低 性 能 的 
调用 。 
以 我 的 经 验 来 看 ， 从 循环 处 理 中 或 是 会 被 频 紧 调用 的 函数 中 移 除 哪怕 一 次 对 内 存 管理 器 的 
调用 ， 就 能 显著 地 改善 性 能 ， 而 且 通 常 程序 中 有 很 多 可 被 移 除 的 调用 。 
在 开始 讲解 如 何 优化 动态 分 配 内 存 的 变量 的 使 用 之 前 ， 我 们 先 来 回顾 C++ 是 如 何 看 待 变量 
的 。 同 时 ， 我 们 还 会 回顾 动态 分 配 内 存 API 中 的 工具 箱 。 






































注 1: 威 利 * 萨 顿 (Winlie Sutton) 是 美国 著名 银行 抢劫 犯 。 他 以 抢 银行 为 业 ， 持 续 时 间 长 达 22 年 。 
一 一 译 者 注 
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6.1 ”C++ 变量 回顾 


每 个 C++ 变量 (每 个 普通 数据 类 型 的 变量 ， 每 个 数组 、 结 构 体 或 类 实例 ) 在 内 存 中 的 布局 
都 是 固定 的 ， 它 们 的 大 小 在 编译 时 就 已 经 确定 了 。C++ 允许 程序 获得 变量 的 字 市 单位 的 大 
小 和 指向 该 变量 的 指针 ， 但 并 不 允许 指定 变量 的 每 一 位 的 布局 。C++ 的 规则 允许 开发 人 员 
讨论 结构 体 成 员 变量 的 顺序 和 内 存 布 局 ，C++ 也 提供 了 多 个 变量 可 以 共享 同一 内 存 块 的 联 
合 类 型 ， 但 是 程序 所 看 到 的 联合 是 依赖 于 实现 的 。 


6.1.1 变量 的 存储 期 


每 个 变量 都 有 它 的 存储 期 ， 也 称 为 生命 周期 。 只 有 在 这 段 时 间 内 ， 变 量 所 占用 的 存储 空间 
或 者 内 存 字 市 中 的 值 才 是 有 意义 的 。 为 变量 分 配 内 存 的 开销 取决 于 存储 期 。 


由 于 C++ 既 要 维持 与 C 中 变量 声明 语法 的 兼容 性 ， 又 需要 加 入 一 些 新 概念 ， 因 此 C++ 中 

的 变量 声明 语法 有 时 会 让 人 感到 困惑 。 虽 然 C++ 中 并 不 能 直接 指定 变量 的 存储 期 ,但 可 以 

从 变量 声明 中 推断 出 来 。 

静态 存储 期 
具有 静态 存储 期 的 变量 被 分 配 在 编译 器 预 留 的 内 存 空间 中 。 在 程序 编译 时 ， 编 译 器 会 六 
每 个 静态 变量 分 配 一 个 固定 位 置 和 固定 大 小 的 内 存 空间 。 静 态 变 量 的 内 存 空间 在 程序 的 
整个 生命 周期 内 都 会 被 一 直 保 留 。 所 有 的 全 局 静态 变量 都 会 在 程序 执行 进入 main() 前 
被 构建 ， 在 退出 main() 之 后 被 销毁 。 在 函数 内 声明 的 静态 变量 则 会 在 “程序 执行 第 一 
次 进入 函数 前 ”被 构建 ， 这 表示 它 可 能 会 和 全 局 静态 变量 同时 被 构建 ， 也 可 能 直到 第 一 
次 调用 该 函数 时 才 会 被 构建 。C++ 为 全 局 静态 变量 指定 了 构建 和 销毁 的 顺序 ， 因 此 开 
发 人 员 可 以 准确 地 知道 它们 的 生命 周期 。 但 是 这 些 规则 太 复 杂 了 ， 实 际 上 在 使 用 存储 期 
时 ， 这 些 规则 更 像 是 警告 而 非 行为 。 
我 们 既 可 以 通过 名 字 访 问 静 态 变 量 ， 也 可 以 通过 指针 或 是 引用 来 访问 该 变量 。 静 态 变 量 
的 名 字 与 指向 该 变量 的 指针 和 引用 一 样 ， 可 能 会 在 这 个 名 字 变 得 有 意义 之 前 就 出 现在 了 
其 他 静态 变量 的 构造 国 数 中 ， 或 是 在 这 个 名 字 被 销毁 后 又 出 现 了 其 他 静态 变量 的 析 构 国 
数 中 。 
为 静态 变量 创建 存储 空间 是 没有 运行 时 开销 的 。 不 过 ， 我 们 无 法 再 利用 这 段 存储 空 

间 。 因 此 ， 静 态 变量 适用 于 那些 在 整个 程序 的 生命 周期 内 都 会 被 使 用 数据 。 

在 命名 空间 作用 域内 定义 的 变量 以 及 被 声明 为 static 或 是 extern 的 变量 具有 静态 

存储 期 。 


线程 局 部 存储 期 
自 C++11 开始 ， 程 序 可 以 声明 具有 线程 局 部 存储 期 的 变量 。 在 C++11 之 前 ， 有 些 编译 
器 和 框架 也 以 一 种 非 标准 的 形式 提供 了 类 似 的 机 制 。 
线程 局 部 变量 在 进入 线程 时 被 构建 ， 在 退出 线程 时 被 析 构 。 它 们 的 生命 周期 与 线程 的 生 
命 周 期 一 样 。 每 个 线程 都 包含 一 份 这 类 变量 的 独立 的 副本 。 
访问 线程 局 部 变量 可 能 会 比 访问 静态 变量 开销 更 高 ， 这 取决 于 操作 系统 和 编译 器 。 在 基 
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些 系统 中 ， 线 程 局 部 存储 空间 是 由 线程 分 配 的 ， 所 以 访问 线程 局 部 变量 的 开销 比 访问 全 
局 变量 的 开销 多 一 次 指令 。 而 在 其 他 系统 中 ， 则 必须 通过 线程 ID 索引 一 张 全 局 表 来 访 
问 线程 局 部 变量 。 尽 管 这 个 操作 的 时 间 开 销 是 常量 时 间 ， 但 是 会 发 生 一 次 函数 调用 和 一 
些 计算 ， 导 致 访问 线程 局 部 变量 的 开销 变 得 更 大 。 


自 C+t+11 开始 ， 用 thread_local 存储 类 型 指示 符 关 键 字 声明 的 变量 具有 线程 局 部 存储 期 。 


自动 存储 期 
具有 自动 存储 期 的 变量 被 分 配 在 编译 器 在 函数 调用 栈 上 预 留 的 内 存 空间 中 。 在 编译 时 ， 
编译 器 会 计算 出 距离 栈 指针 的 偏 移 量 ， 自 动 变 量 会 以 该 偏 移 量 为 起 点 ， 占 用 一 段 固定 大 
小 的 内 存 ， 但 是 自动 变量 的 绝对 地 址 直到 程序 执行 进入 变量 的 作用 域内 才 会 确定 下 来 。 


在 程序 执行 于 大 括号 括 起 来 的 代码 块 内 的 这 段 时 间 ， 自 动 变量 是 一 直 存 在 的 。 当 程序 运 
行 至 声明 自动 变量 的 位 置 时 ， 会 构建 自动 变量 ， 当 程序 离开 大 括号 括 起 来 的 代码 块 时 ， 
自动 变量 将 会 被 析 构 。 

与 静态 变量 一 样 ， 我 们 可 以 通过 名 字 访 问 自动 变量 。 但 是 与 静态 变量 不 同 的 是 ， 该 名 字 
只 在 变量 被 构建 后 至 被 析 构 前 可 见 。 当 变量 被 析 构 后 ， 指 向 该 变量 的 指针 和 引用 可 能 仍 
然 存 在 ， 而 解 引 它们 会 导致 未 定义 的 程序 行为 。 

与 静态 变量 一 样 ， 为 自动 变量 分 配 存储 空间 不 会 发 生 运行 时 开销 。 但 与 静态 变量 不 同 的 
是 ， 自 动 变量 每 次 可 以 占用 的 总 的 存储 空间 是 有 限 的 。 当 递归 不 收敛 或 是 发 生 深度 图 数 
租 套 调用 导致 自动 变量 占用 的 存储 空间 大 小 超出 这 个 最 大 值 时 ， 会 发 生 栈 溢出 ， 导 致 程 
序 会 突然 终止 。 自 动 变量 适合 于 那些 只 在 代码 块 附近 被 使 用 的 对 象 。 


函数 的 形 参 变量 具有 自动 存储 期 。 除 非 使 用 了 特殊 的 关键 字 ， 那 些 声 明 在 可 执行 代码 块 
内 部 的 变量 也 具有 自动 存储 期 。 

动态 存储 期 
具有 动态 存储 期 的 变量 被 保存 在 程序 请 求 的 内 存 中 。 程 序 会 调用 内 存 管理 器 ， 即 C++ 
运行 时 系统 函数 和 代表 程序 管理 内 存 的 数据 结构 的 集合 。 程 序 会 在 new 表达 式 (在 
13.1.3 节 进 行 详细 讲解 ) 中 显 式 地 为 动态 变量 请 求 存储 空间 并 构建 动态 变量 ， 这 可 能 会 
发 生 在 程序 中 的 任何 一 处 地 方 。 稍 后 ， 程 序 在 delete 表达 式 (在 13.1.4 节 进 行 详 细 讲 
解 ) 中 显 式 地 析 构 动态 变量 ， 并 将 变量 所 占用 的 内 存 返 回 给 内 存 管 理 器 。 当 程序 不 再 需 
要 该 变量 时 ， 这 可 能 会 发 生 在 程序 的 任何 一 处 地 方 。 
与 自动 变量 类 似 ， 但 与 静态 变量 不 同 的 是 ， 动 态 变量 的 地 址 是 在 运行 时 确定 的 。 
不 同 于 静态 变量 、 线 程 局 部 变量 和 自动 变量 的 是 ， 数 组 的 声明 语法 被 扩展 了 ， 这 样 可 以 
在 运行 时 通过 一 个 (非常 量 ) 表达 式 来 指定 动态 数组 变量 的 最 高 维度 。 在 C++ 中 ， 这 
是 唯一 一 种 在 编译 时 变量 所 占用 的 内 存 大 小 不 固定 的 情况 。 
动态 变量 没有 自己 的 名 字 。 当 它 被 构建 后 ，C++ 内 存 管理 器 会 返回 一 个 指向 动态 变量 的 
指针 。 程 序 必须 将 这 个 指针 赋值 给 一 个 变量 ， 这 样 就 可 以 在 最 后 一 个 指向 该 变量 的 指针 
被 析 构 之 前 ， 将 动态 变量 返回 给 内 存 管理 器 ， 否 则 就 会 有 因 不 断 地 创建 动态 变量 而 耗 尽 
内 存 的 危险 。 如 果 没 有 正确 地 返回 动态 变量 ， 现 代 处 理 器 可 能 会 在 数 分 钟 内 耗 尽 数 吉 字 
节 的 内 存 。 
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不 同 于 静态 变量 和 线程 局 部 变量 的 是 ， 动 态 变量 的 数量 和 类 型 可 以 随 着 时 间 改变 ， 而 不 
受到 它们 所 消耗 的 内 存 总 量 的 限制 。 另 外 ， 与 静态 变量 和 自动 变量 不 同 的 是 ， 管 理 动态 
变量 使 用 的 内 存 时 会 发 生 显著 的 运行 时 开销 。 


new 表达 式 返 回 的 变量 具有 动态 存储 期 。 


6.1.2 ”变量 的 所 有 权 


C++ 变量 的 另 一 个 重要 概念 是 所 有 权 。 变 量 的 所 有 者 决定 了 变量 什么 时 候 会 被 创建 ， 什 么 
时 候 会 被 析 构 。 有 时 ， 存 储 期 会 决定 变量 什么 时 候 会 被 创建 ， 什 么 时 候 会 被 析 构 ， 但 所 有 
权 是 另外 一 个 单独 的 概念 ， 而 且 是 对 优化 动态 变量 而 言 非常 重要 的 概念 。 下 面 是 一 些 指导 
原则 。 


全 局 所 有 权 
具有 静态 存储 期 的 变量 整体 上 被 程序 所 有 。 程 序 会 在 进入 main() 前 构建 它们 ， 并 在 从 
main() 返回 后 销毁 它们 。 


词法 作用 域 所 有 权 
具有 自动 存储 期 的 变量 被 一 段 由 大 括号 括 起 来 的 代码 块 构成 的 词法 作用 域 所 拥有 。 词 法 
作用 域 可 能 是 函数 体 ，if、while、for 或 者 do 控制 语句 块 ，try 或 者 catch 子 句 ， 抑 或 
是 由 大 括号 括 起 来 的 多 条 语句 。 这 些 变量 在 程序 进入 词法 作用 域 时 会 被 构建 ， 在 程序 退 
出 词法 作用 域 时 会 被 销毁 。 
最 外 层 的 词法 作用 域 ， 即 最 先进 入 和 最 后 退出 的 词法 作用 域 ， 是 main() 的 函数 体 。 也 
就 是 说 ， 声 明 在 main() 中 的 自动 变量 的 生命 周期 与 静态 变量 相同 。 


成 员 所 有 权 
类 和 结构 体 的 成 员 变量 由 定义 它们 的 类 实例 所 有 。 当 类 的 实例 被 构建 时 ， 它 们 会 被 类 的 
构造 国 数 构建 ， 当 类 的 实例 被 销毁 时 ， 它 们 也 会 随 之 被 销毁 。 


动态 变量 所 有 权 
动态 变量 没有 预定 义 的 所 有 者 。 取 而 代 之 ，new 表达 式 创建 动态 变量 并 返回 一 个 必须 
由 程序 显 式 管理 的 指针 。 动 态 变 量 必须 在 最 后 一 个 指向 它 的 指针 被 销毁 之 前 ， 通 过 
delete 表达 式 返回 给 内 存 管 理 器 销毁 。 因 此 ， 动 态 变量 的 生命 周期 是 可 以 完全 通过 编 
程控 制 的 ， 它 是 一 个 强大 且 危 险 的 工具 。 如 有 果 在 最 后 一 个 指向 它 的 指针 被 销毁 之 前 ， 动 
态 变 量 没有 通过 delete 表达 式 被 返回 给 内 存 管 理 器 ， 内 存 管理 器 将 会 在 程序 剩余 的 运 
行 时 间 中 竺 失 对 变量 的 跟踪 。 


动态 变量 的 所 有 权 必 须 由 程序 员 执 行 并 编写 在 程序 逻辑 中 。 它 不 受 编译 器 控制 ， 也 不 由 
C++ 定义。 动态 变量 所 有 权 对 于 性 能 优化 非常 重要 。 有 具有 强 定义 所 有 权 的 程序 会 比 所 有 
权 分 散 的 程序 更 高 效 。 


6.1.3 值 对 象 与 实体 对 象 


些 变量 通过 它们 的 内 容 体现 出 它们 在 程序 中 的 意义 ， 这 些 变量 被 称 为 值 对 象 。 变量 
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C++ 不 会 指定 革 个 变量 表现 为 值 对 象 还 是 实体 对 象 ， 开 发 人 员 需 要 在 程序 逻辑 中 编写 变量 
所 扮演 的 角色 。C++ 允许 开发 人 员 为 许多 类 定义 复制 构造 函数 和 operator==()。 而 决定 开 
发 人 员 是 否 应 当 为 它们 定义 这 些 运算 符 的 则 是 变量 。 如 果 开 发 人 员 不 采取 措施 禁止 那些 无 
意义 的 运算 ， 编 译 器 也 不 会 作出 任何 警告 。 

我 们 可 以 通过 实体 对 象 的 下 列 共通 特性 识别 出 它们 。 


实体 是 独一无二 的 
程序 中 的 有 些 对 象 在 概念 上 有 唯一 的 标识 符 ， 典 型 的 例子 有 : 守护 某 个 特定 临界 区 的 互 
斥 锁 和 有 许多 表 元 素 的 符号 表 。 


实体 是 可 变 的 
程序 可 以 对 互 斥 锁 加 锁 或 是 解锁 ， 但 是 它 仍然 是 同一 个 互 斥 锁 。 程 序 也 可 以 向 符号 表 
中 加 入 符号 ， 但 它 仍然 是 同一 个 符号 表 。 你 可 以 发 动 你 的 爱 车 ， 开 着 它 上 班 ， 但 它 仍 
然 是 你 的 车 。 实 体 作为 整体 才 是 有 意义 的 。 改 变 实体 的 状态 并 不 会 改变 它 对 于 程序 的 
基本 意义 。 


实体 是 不 可 复制 的 
实体 不 是 通过 复制 得 到 的 。 它 们 的 本 质 来 源 于 使 用 它们 的 方式 ， 而 不 是 来 自 它们 内 部 的 
每 个 位 。 你 可 以 将 系统 符号 表 中 的 所 有 位 复制 到 另外 一 个 数据 结构 中 ， 但 它 不 会 成 为 系 
统 的 符号 表 。 程 序 依然 会 去 原来 的 地 址 查找 符号 表 ， 而 不 会 使 用 那 份 副本 。 如 果 有 时 程 
序 修改 了 符号 表 的 副本 ， 而 不 是 原始 版 本 ， 那 么 符号 表 将 不 再 有 效 。 你 也 可 以 复制 守护 
某 个 临界 区 的 互 斥 锁 的 所 有 位 ， 但 是 对 副本 加 锁 不 会 产生 排他 锁 。 排 他 锁 是 一 种 只 有 当 
两 个 线程 同意 使 用 一 组 特定 的 位 来 互相 收发 信号 时 才 会 产生 的 特性 。 

实体 是 不 可 比较 的 
比较 两 个 实体 是 否 相 等 的 运算 没有 任何 意义 。 实 体 的 本 质 是 独立 的 。 对 两 个 实体 的 比较 
必须 永远 返回 false。 

同样 ， 值 对 象 具 有 与 实体 对 象 相反 的 下 列 共 通 特 性 。 

值 是 可 互 换 和 可 比较 的 
整数 4 和 字符 串 "Hello，World!" 都 是 值 。 表 达 式 2 + 2 与 值 4 进 行 比较 的 结果 是 相 
等 ， 但 与 值 5 进行 比较 的 结果 是 不 等 。 表 达 式 string("Hello") + string("!") 与 字符 
串 "Hello!" 比较 的 结果 是 相等 ， 但 与 字符 串 "Hi" 比较 的 结果 是 不 等 。 值 的 意义 来 自 于 
它 内 部 的 每 个 位 ， 而 不 是 它 在 程序 中 的 使 用 方法 。 

值 是 不 可 变 的 
没有 任何 一 种 运算 可 以 将 4 变 为 5， 包括 2 + 2 
保存 的 值 从 4 变 为 5。 这 个 操作 可 以 改变 变量 ， 
但 这 个 操作 无 法 改变 值 4。 

值 是 可 以 复制 的 
复制 一 个 值 是 有 意义 的 。 两 个 字符 串 可 以 有 同样 的 值 "foo" ， 这 在 程序 中 仍然 是 正确 的 。 

一 个 变量 是 实体 对 象 还 是 值 对 象 决 定 了 复制 以 及 比较 相等 是 否 有 意义 。 实 体 不 应 当 被 复制 

和 比较 。 一 个 类 的 成 员 变 量 是 实体 还 是 值 决 定 了 应 该 如 何 编写 该 类 的 构造 函数 。 类 实例 可 


































































































。 你 可 以 改变 一 个 整数 变量 ， 让 它 


= 5 
因为 变量 是 一 个 带 有 唯一 名 字 的 实体 ， 
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以 共享 实体 的 所 有 权 ， 但 是 无 法 有 效 地 复制 实体 。 透 彻 地 理解 实体 对 象 和 值 对 象 非常 重 
要 ， 因 为 实体 变量 中 往往 包含 许多 动态 分 配 内 存 的 变量 ， 即 使 复制 这 些 变量 是 合理 的 ， 但 


















































其 性 能 开销 也 是 昂贵 的 。 


6.2 C++ 动态 变量 API 回 顾 


C++ 有 一 个 完善 的 工具 箱 用 于 管理 动态 变量 ， 这 些 工 具 允 许 对 内 存 管理 和 动态 分 配 内 存 的 
C++ 变量 的 构建 ， 选 择 进 行 自动 控制 还 是 精准 控制 。 即 使 是 经 验 丰富 的 开发 人 员 ， 可 能 也 
只 使 用 了 这 个 工具 箱 中 最 基本 的 工具 。 在 深入 讨论 那些 对 性 能 优化 有 益 的 特性 前 ， 先 来 快 
速 地 浏览 下 这 些 工 具 。 


指针 和 引用 

















C++ 中 的 动态 变量 是 没有 名 字 的 。 我 们 可 以 通过 C 风格 的 指针 变量 或 是 引用 变量 来 访 
问 它们 。 指 针 抽 象 了 硬件 的 地 址 来 隐藏 计算 机 架构 的 复杂 性 和 变化 性 。 并 非 指 针 变 量 保 
存 的 所 有 值 都 对 应 一 个 有 效 的 内 存 地 址 ， 但 没有 任何 位 会 告诉 程序 员 这 些 。 在 C++11 
中 有 一 个 称 为 nuLLptr 的 指针 ， 根 据 C++ 标准 ， 它 绝对 不 会 指向 有 效 的 内 存 地 址 。 在 
C++11 之 前 ， 整 数 0 代表 nuLtptr， 而 在 C++ll 中 ， 它 可 以 被 转换 为 nuLLtptr。 不 过 ， 
即使 指针 变量 中 保存 的 所 有 位 都 为 0， 也 不 一 定 等 于 nuLLptr。 未 初始 化 的 C 风格 的 指 
针 没 有 预定 义 值 〈 出 于 性 能 考虑 ) 。 而 由 于 声明 引用 变量 时 必须 初始 化 它 ， 因 此 它们 总 
是 指向 有 效 地 址 ”。 




















new 和 delete 表达 式 


C++ 中 的 动态 变量 是 通过 new 表达 式 (请 参见 13.1.3 节 ) 创建 的 。new 表达 式 会 分 配 存 
储 变量 所 需 的 空间 ， 在 存储 空间 中 构建 指定 类 型 的 变量 ， 并 返回 一 个 指向 新 构建 的 变量 
的 带 类 型 的 指针 。 用 于 创建 数组 的 new 表达 式 与 用 于 创建 单 实例 的 new 表达 式 不 同 ， 但 
都 会 返回 相同 类 型 的 指针 。 

动态 变量 是 通过 delete 表达 式 (请 参见 13.1.4 节 ) 释放 的 。delete 表达 式 会 销毁 变量 
并 释放 它 的 存储 空间 。 用 于 释放 数组 的 delete 表达 式 与 用 于 销毁 单 实例 的 delete 表达 
式 不 同 。 两 者 都 可 以 作用 于 相同 类 型 的 指针 上 ， 不 过 ， 从 指针 上 我 们 看 不 出 它 到 底 是 指 
向 一 个 数组 还 是 一 个 标量 。 开 发 人 员 必 须 记 住 用 于 创建 动态 变量 的 new 表达 式 的 类 型 ， 
并 使 用 与 它 相 同类 型 的 delete 表达 式 来 销毁 这 个 动态 变量 ， 否 则 就 会 出 现 混乱 。 当 一 
个 指向 数组 的 指针 被 当 作 指向 实例 的 指针 删除 时 ， 会 导致 未 定义 的 行为 ， 反 之 亦 然 。 


new 表达 式 和 delete 表达 式 都 是 C++ 语言 的 原生 语法 。 下 面 这 段 简短 的 示例 代码 展示 
了 所 有 开发 人 员 都 熟悉 的 基本 类 型 的 new 表达 式 和 delete 表达 式 : 

















int n = 100; 
char* cp; // 没有 指定 cp 的 值 











注 2: 开发 人 员 可 能 会 将 机 器 地 址 的 数值 转换 为 引用 来 初始 化 引用 变量 。 尽 管 这 看 起 来 有 些 疯狂 ， 但 在 嵌入 











式 编程 中 ， 当 知道 目标 机 的 架构 ， 而 且 它 一 定 不 会 改变 时 ， 这 种 方法 却 是 非常 有 效 的 。 用 链接 器 设置 
外 部 变量 的 地 址 比 用 编译 器 将 数值 常量 转换 为 引用 或 是 指针 更 高 效 。 我 的 建议 是 :“ 走 开 ， 这 儿 没 什 
么 可 看 的 。 
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Book* bp = nuLLptr;  // bp 指向 无 效 地 址 
/ 


cp = new char[n]; // cp 指向 一 个 新 的 动态 数组 
bp = new Book("Optimitzed C++"); // 新 的 动态 类 的 实例 


// 


char array[sizeof(Book)]; 
Book* bp2 = new(array) Book("Moby Dick"); // placement _ new 操作 符 


// 


delete[] cp; // 在 改变 指针 之 前 删除 动态 数组 
cp = new char; // cp 现在 指向 一 个 动态 char 















































// 
delete bp; // 类 实例 使 用 完毕 
delete cp; // 动态 分 配 的 char 使 用 完毕 
bp2->~Book(); // placement new 操 作 符 创建 出 的 类 实例 使 用 完毕 
} 
// 在 指针 超出 作用 域 前 删除 动态 变量 
内 存 管 理 函 数 


new 和 delete 表达 式 会 调用 C++ 标准 库 的 内 存 管理 函数 ， 在 C++ 标准 中 称 为 “自由 存 
储 区 ”的 内 存 池 中 分 配 和 归还 内 存 。 这 些 函 数 是 new() 运算 符 的 重 载 、 对 数组 的 new[]() 
运算 符 的 重 载 、delete() 运算 符 的 重 载 以 及 对 数组 的 delete[]() 运算 符 的 重 载 。C++ 
还 提供 了 经 典 的 C 函数 库 中 的 内 存 管理 函数 ， 如 用 于 分 配 和 释放 无 类 型 的 内 存 块 的 
malloc() 和 free()。 


类 构造 函数 和 析 构 函数 
C++ 允许 每 个 类 定义 一 个 构造 成 员 函数 ， 在 创建 该 类 的 实例 时 会 调用 这 个 函数 来 进行 初 
始 化 。 另 一 个 成 员 函 数 一 析 构 函 数 一 则 会 在 每 次 销毁 类 实例 时 被 调用 。 除 了 其 他 优 
点 以 外 ， 这 些 特 殊 的 成 员 函 数 提供 了 放置 new 和 detete 表达 式 的 场地 ， 这 样 所 有 的 动 
态 成 员 变 量 都 可 以 在 类 的 实例 中 被 自动 管理 起 来 。 

智能 指针 
C++ 标准 库 提供 了 “智能 指针 ”模板 类 。 它 的 行为 与 原始 指针 类 型 类 似 ， 但 是 它们 在 超 

出 作用 域 后 还 会 删除 它们 所 指向 的 变量 。 智 能 指针 可 以 记 住 分 配 的 存储 空间 是 数组 还 是 
一 个 单 实例 ， 它 们 会 根据 智能 指针 的 类 型 调用 正确 的 detete 表达 式 。 我 将 会 在 下 一 节 
中 深入 讲解 智能 指针 。 

分 配器 模板 
C++ 标准 库 提供 了 分 配器 模板 ， 它 是 new 和 detete 表达 式 的 泛 化 形式 ， 可 以 与 标准 容 
器 一 起 使 用 。 我 将 会 在 13.4 节 中 进行 详细 讲解 。 
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6.2.1 使 用 智能 指针 实现 动态 变量 所 有 权 的 自动 化 

动态 变量 的 所 有 权 既 不 受 编译 器 控制 ， 也 不 由 C++ 定义 。 我 们 可 以 在 程序 中 的 某 个 地 方 
声明 一 个 指针 变量 ， 然 后 在 另 一 个 地 方 使 用 new 表达 式 将 一 个 动态 变量 赋值 给 指针 ， 再 在 
另 一 个 地 方 复制 这 个 指针 到 另 一 个 指针 中 ， 然 后 再 在 另外 一 个 地 方 通过 第 二 个 指针 使 用 
delete 表达 式 销毁 这 个 动态 变量 。 不 过 ， 这 样 编写 出 来 的 程序 难以 测试 和 调试 ， 因 为 动态 
变量 的 所 有 权 太 分 散 了 。 动 态 变量 的 所 有 权 是 由 开发 人 员 赋 予 ， 并 编码 在 程序 逻辑 中 的 。 
当 所 有 权 很 分 散 时 ， 每 行 代码 都 可 能 会 创建 出 动态 变量 ， 添 加 或 是 移 除 引 用 ， 或 是 销毁 变 
量 。 开 发 人 员 必 须 追 踪 所 有 的 执行 路 径 ， 确 保 动态 变量 总 是 正确 地 被 返回 给 了 内 存 管 理 器 。 
使 用 编程 惯用 法 可 以 降低 这 种 复杂 性 。 一 种 常用 的 方法 是 将 指针 变量 声明 为 某 个 类 的 私有 
成 员 变 量 。 我 们 可 以 在 类 的 构造 函数 中 将 指针 设置 为 nultlptr， 复制 指 针 参 数 ， 抑 或 是 编 
写 一 个 创建 动态 变量 的 new 表达 式 。 由 于 指针 是 私有 成 员 ， 因 此 ， 任 何 对 指针 的 修改 都 必 
须 经 由 类 的 成 员 函 数 。 这 样 就 对 限制 了 会 影响 该 指针 的 代码 的 行 数 ， 使 测试 和 调试 都 变 得 
更 容易 。 类 的 析 构 函数 中 可 以 包含 用 于 销毁 动 态 变量 的 delete 表达 式 。 我 们 称 具 有 这 种 行 
为 的 类 的 实例 “拥有 动态 变量 ”。 

我 们 可 以 设计 一 个 仅仅 用 于 拥有 动态 变量 的 简单 的 类 。 除 了 构造 和 销毁 动态 变量 外 ， 还 让 
这 个 类 实现 operator->() 运算 符 和 operator*() 运算 符 。 这 样 的 类 称 为 智能 指针 ， 因 为 不 
仅 它 的 行为 几乎 与 C 风格 的 指针 一 样 ， 当 它 被 销毁 时 还 能 够 销毁 它 所 指向 的 动态 对 象 。 
C++ 提供 了 一 个 称 为 std: :unique_ptr<T> 的 智能 指针 模板 来 维护 T 类 型 的 动态 变量 的 所 有 
权 。 相 比 于 自己 编写 代码 实现 的 智能 指针 ，unique_ptr 被 编译 后 产生 的 代码 更 加 高 效 。 


1. 动态 变量 所 有 权 的 自动 化 

智能 指针 会 通过 耦合 动态 变量 的 生命 周期 与 拥有 该 动态 变量 的 智能 指针 的 生命 周期 ， 来 实 

现 动态 变量 所 有 权 的 自动 化 。 动 态 变量 将 会 被 正确 地 销毁 ， 其 所 占用 的 内 存 也 会 被 自动 地 

释放 ， 这 些 取决 于 指针 的 声明 。 

。 当 程 序 执行 超出 智能 指针 实例 所 属 的 作用 域 时 ， 具 有 自动 存储 期 的 智能 指针 实例 会 删 
除 它 所 拥有 的 动态 变量 ， 无 论 这 发 生 在 执行 break 或 是 continue 语句 时 ， 退 出 函数 时 ， 
还 是 在 作用 域内 抛 出 异常 时 。 

。 声明 为 类 的 成 员 函 数 的 智能 指针 实例 在 类 被 销毁 时 会 删除 它 所 拥有 的 动态 变量 。 除 此 之 
外 ， 由 于 类 的 析 构 规则 决定 了 在 类 的 析 构 函数 执行 后 ， 所 有 成 员 变量 都 会 被 销毁 ， 因 此 
没有 必要 再 显 式 地 在 析 构 函数 中 编写 销毁 动态 变量 的 代码 。 智 能 指针 会 被 C++ 的 内 建 
机 制 所 删除 。 

。 当 线 程 正常 终止 时 〈 通 常 不 包括 操作 系统 终止 线程 的 情况 )， 具 有 线程 局 部 存储 期 的 智 

能 指针 实例 会 删除 它 所 拥有 的 动态 变量 。 

。 当 程 序 结束 时 ， 具 有 静态 存储 期 的 智能 指针 实例 会 删除 它 所 拥有 的 动态 变量 。 


在 通常 情况 下 维护 一 个 所 有 者 ， 在 特殊 情况 下 使 用 std::unique_ptr 维护 所 有 权 ， 这 样 可 
以 更 加 容易 地 判断 一 个 动态 变量 是 否 指向 一 块 有 效 的 内 存 地 址 ， 以 及 当 不 再 需要 它 时 它 是 
?会 被 正确 地 返回 给 内 存 管理 器 。 使 用 unique_ptr 时 会 发 生 一 些小 的 性 能 损失 ， 因 此 当 开 
发 人 员 想 要 优化 性 能 时 ，unique_ptr 是 首选 。 



































































































































2. 共享 动态 变量 的 所 有 权 的 开销 更 大 

C++ 允许 多 个 指针 和 引用 指向 同一 个 动态 变量 。 如 果 多 个 数据 结构 指向 同一 个 动态 变量 ， 
或 是 指向 动态 变量 的 指针 被 作为 参数 传递 给 了 一 个 函数 ， 那 么 多 个 指针 可 能 会 引用 同一 
个 变量 。 这 样 ， 一 个 指针 在 调用 方 的 作用 域内 ， 另 外 一 个 指针 在 被 调用 的 函数 的 作用 域 
内 。 多 个 指针 指向 同一 变量 的 情况 会 短暂 地 存在 于 赋值 或 是 创建 一 个 拥有 动态 变量 的 对 
象 过 程 中 。 

任何 时 候 ， 只 要 有 多 个 指针 指向 同一 变量 ， 开 发 人 员 必 须 注意 哪个 指针 是 变量 的 所 有 者 。 
开发 人 员 不 应 当 显 式 地 通过 非 所 有 者 指针 来 删除 动态 变量 ， 在 删除 动态 变量 后 不 应 当 再 解 
引 任何 一 个 指针 ， 也 不 应 进行 会 导致 两 个 指针 拥有 相同 对 象 的 操作 ， 这 样 它 会 被 删除 两 
次 。 当 程序 发 生 了 错误 或 是 异常 时 ， 这 种 分 析 变 得 尤为 重要 。 

有 时 ， 动 态 变 量 的 所 有 权 一 定 会 在 两 个 或 多 个 指针 间 共 享 。 当 两 个 指针 的 生命 周期 重 有 全， 
但 任何 一 个 方 的 生命 周期 都 不 包含 另 一 方 的 生命 周期 时 ， 就 一 定 会 共享 所 有 权 。 


C++ 标准 库 模 板 std: :shared_ptr<T> 提供 了 一 个 智能 指针 ， 可 以 在 所 有 权 被 共享 时 管理 被 
共享 的 所 有 权 的 。shared_ptr 的 实例 包含 一 个 指向 动态 变量 的 指针 和 另 一 个 指向 含有 引用 
计数 的 动态 对 象 的 指针 。 当 一 个 动态 变量 被 赋值 给 shared_ptr 时 ， 赋 值 运算 符 会 创建 引 
用 计数 对 象 并 将 引用 计数 设置 为 1。 当 一 个 shared_ptr 被 赋值 给 另 一 个 shared_ptr 时 ， 引 
用 计数 会 增加 。 当 shared_ptr 被 销毁 后 ， 析 构 国 数 会 减 小 引用 计数 ， 如 果 此 时 引用 计数 
变 为 了 0， 还 会 删除 动态 变量 。 由 于 在 引用 计数 上 会 发 生性 能 开销 昂贵 的 原子 性 的 加 减 运 
算 ， 因 此 shared_ptr 可 以 工作 于 多 线程 程序 中 。std: :shared_ptr 也 因此 比 C 风格 指针 和 
std: :unique_ptr 的 开销 更 大 。 


开发 人 员 不 能 将 C 风格 的 指针 (例如 new 表达 式 返回 的 指针 ) 赋值 给 多 个 智能 指针 ， 而 只 
能 将 其 从 一 个 智能 指针 赋值 给 另外 一 个 智能 指针 。 如 果 将 同一 个 C 风格 的 指针 赋值 给 多 个 
智能 指针 ， 那 么 该 指针 会 被 多 次 删除 ， 导 致 发 生 C++ 标准 中 所 谓 的 “未 定义 的 行为 "。 这 
听 起 来 很 容易 ， 不 过 由 于 智能 指针 可 以 通过 C 风格 的 指针 创建 ， 因 此 传递 参数 时 所 进行 的 
隐 式 的 类 型 转换 会 导致 这 种 情况 发 生 。 

3. std: :auto_ptr 与 容器 类 

在 C++11 之 前 ， 有 一 个 称 为 std: :auto_ptr<T> 的 智能 指针 ， 它 也 能 够 管理 动态 变量 未 共享 
的 所 有 权 。auto_ptr 与 unique_ptr 在 许多 方面 十 分 相似 。 不 过 ，auto_ptr 并 没有 实现 移动 
语义 (我 将 会 在 6.6 节 讨 论 ) ， 也 设 有 复制 构造 函数 。 
C++11 之 前 的 绝 大 多 数 标 准 库容 器 都 会 通过 复制 构造 函数 将 它们 的 值 类 型 复制 到 容器 内 
部 的 存储 空间 中 ， 因 此 auto_ptr 无 法 被 用 作 值 类 型 。 在 引入 unique_ptr 之 前 ， 不 得 不 使 
用 C 风格 的 指针 、 对 象 深 复 制 或 shared_ptr 实现 标准 库容 器 。 这 些 解 决 方法 都 有 问题 。 
使 用 原生 C 风格 指针 会 带 来 错误 和 内 存 泄漏 的 风险 ， 对 象 深 复制 对 于 大 型 对 象 非常 低 效 ， 
shared_ptr 的 开销 非常 大 。 容 器 类 的 复制 构造 函数 会 执行 一 个 类 似 移动 的 操作 ， 例 如 使 用 
std::swap() 将 无 主 指针 传递 交换 给 构造 函数 ， 有 些 项 目 为 这 些 容器 类 实现 了 特殊 的 非 安 
全 的 智能 指针 。 这 能 够 让 许多 (但 并 非 所 有 ) 容器 类 成 员 函 数 正 常 工 作 。 这 虽然 高 效 ， 却 
不 安全 ， 而 且 难 以 调试 。 
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在 C++ll 之 前 ， 通 常 都 会 为 标准 库容 器 类 实例 中 的 值 类 型 使 用 std: :shared_ptr。 使 用 这 
种 方法 可 以 得 到 正确 且 可 调式 的 代码 ， 但 代价 是 std: :shared_ptr 非常 低 效 。 


6.2.2 ”动态 变量 有 运行 时 开销 

由 于 C++ 代码 会 被 编译 为 机 器 码 ， 并 由 计算 机 直接 执行 ， 因 此 大 多 数 C++ 语句 的 开销 都 
不 过 是 儿 次 内 存 访问 而 已 。 不 过 ， 为 动态 变量 分 配 内 存 的 开销 则 是 数 千 次 内 存 访问 。 平 均 
来 看 ， 这 种 开销 太 大 了 。 我 们 已 经 在 第 4 章 中 反复 看 到 ， 哪 怕 只 是 移 除 一 次 对 内 存 管理 器 
的 调用 就 可 以 带 来 显著 的 性 能 提升 。 


从 概念 上 说 ,分 配 内 存 的 函数 会 从 内 存 块 集合 中 寻找 一 块 可 以 使 用 的 内 存 来 满足 请 求 。 如 
果 国 数 找到 了 一 块 正 好 符合 大 小 的 内 存 ， 它 会 将 这 块 内 存 从 集合 中 移 除 并 返回 这 块 内 存 。 
如 果 函 数 找到 了 一 块 比 需求 更 大 的 内 存 ， 它 可 以 选择 拆 分 内 存 块 然后 只 返回 其 中 一 部 分 。 
显然 ， 这 种 描述 为 许多 实现 留 下 了 可 选择 的 空间 。 

如 果 没 有 可 用 的 内 存 块 来 满足 请 求 ， 那 么 分 配 函 数 会 调用 操作 系统 内 核 ， 从 系统 的 可 用 内 
存 池 中 请 求 额外 的 大 块 内 存 ， 这 次 调用 的 开销 非常 大 。 内 核 返回 的 内 存 可 能 会 〈 也 可 能 不 
会 ) 被 缓存 在 物理 RAM 中 (请 参见 2.2.5 节 )， 可 能 会 导致 初次 访问 时 发 生 更 大 的 延迟 。 
遍历 可 使 用 的 内 存 块 列表 ， 这 一 操作 自身 的 开销 也 是 昂贵 的 。 这 些 内 存 块 分 散在 内 存 中 ， 
而 且 与 那些 运行 中 的 程序 正在 使 用 的 内 存 块 相 比 ， 它 们 也 不 太 会 被 缓存 起 来 。 


未 使 用 内 存 块 的 集合 是 由 程序 中 的 所 有 线程 所 共享 的 资源 。 对 未 使 用 内 存 块 的 集合 所 进行 
的 改变 都 必须 是 线程 安全 的 。 如 果 苔 干 个 线程 频繁 地 调用 内 存 管理 器 分 配 内 存 或 是 释放 内 
存 ， 那 么 它们 会 将 内 存 管理 器 视 为 一 种 资源 进行 竞争 ， 导 致 除了 一 个 线程 外 ， 所 有 线程 都 


必须 等 待 。 


当 不 再 需要 使 用 动态 变量 时 ，C++ 程序 必须 释放 那些 已 经 分 配 的 内 存 。 从 概念 上 说 ， 释 放 
内 存 的 函数 会 将 内 存 块 返回 到 可 用 内 存 块 集合 中 。 在 实际 的 实现 中 ， 内 存 释放 函数 的 行为 
会 更 复杂 。 绝 大 多 数 实现 方式 都 会 尝试 将 刚 释放 的 内 存 块 与 临近 的 未 使 用 的 内 存 块 合并 。 
这 样 可 以 防止 向 未 使 用 内 存 集合 中 放 入 过 多 太 小 的 内 存 块 。 调 用 内 存 释放 函数 与 调用 内 存 
分 配 函 数 有 着 相同 的 问题 ， 降 低 缓存 效率 和 争夺 对 未 使 用 的 内 存 块 的 多 线程 访问 。 


6.3 减少 动态 变量 的 使 用 


动态 变量 对 于 许多 问题 来 说 是 一 种 强大 的 解决 方案 。 不 过 ， 有 时 使 用 它们 解决 某 些 问 题 太 
过 于 昂贵 了 。 静 态 创 建 的 变量 常常 可 以 用 于 替代 动态 变量 。 


6.3.1 静态 地 创建 类 实例 

虽然 我 们 可 以 动态 创建 类 的 实例 ， 但 大 多 数 非 容器 类 实例 都 能 够 且 应 当 被 静态 地 创建 ( 即 
不 使 用 new 表达 式 )。 有 时 ， 开 发 人 员 之 所 以 动态 地 创建 类 实例 ， 只 是 因为 他 们 不 知道 还 
有 其 他 选择 。 例 如 ， 以 Java 作为 第 一 门 编程 语言 而 没有 C++ 开发 经 验 的 开发 人 员 可 能 知 
道 ， 可 以 像 下 面 这 样 使 用 Java 语法 来 初始 化 一 个 类 


MyClass myInstance = new MyClass("hello", 123); 
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如 果 用 户 在 C++ 程序 中 输入 这 段 Java 语法 ，C++ 编译 器 会 报告 “cannot convert from 
“MyClass * ”to “MyClass ””， 建 议 他 创建 一 个 实例 指针 。 稍 微 有 些 经 验 的 开发 人 员 则 会 将 
myInstance 声明 为 一 个 智能 指针 ， 以 避免 显 式 地 删除 动态 创建 的 类 实例 ， 前 提 是 他 注意 到 


了 这 个 问题 : 
MyClass* myInstance = new MyClass("hello", 123); 
不 过 ， 这 两 种 解决 方案 都 很 低 效 。 相 反 ， 我 们 应 当 像 下 面 这 样 静态 地 创建 类 实例 : 


MyClass myInstance("hello", 123); 


或 者 : 
MyClass anotherMC = MyClass("hello"，123); // 可 能 稍微 低 效 


如 果 myInstance 声明 于 一 个 可 执行 代码 块 中 ， 那 么 它 具 有 自动 存储 期 。 它 会 在 程序 退出 包 
含 这 段 声明 语句 的 代码 块 时 被 销毁 。 如 果 我 们 希望 myInstance 的 存储 期 更 长 些 ， 可 以 将 
myInstance 定义 在 更 外 层 的 作用 域 中 ， 或 是 定义 在 一 个 具有 较 长 存储 期 的 对 象 中 ， 然 后 将 
旨 针 传递 给 那些 要 使 用 myInstance 的 函数 。 如 果 我 们 希望 myInstance 的 存储 期 与 整个 程 
序 的 生命 周期 一 样 长 ， 那 么 可 以 将 它 的 声明 移 至 文件 作用 域 中 。 


静态 地 创建 类 的 成 员 变 量 

当 类 的 成 员 变 量 也 是 类 时 ， 我 们 可 以 在 创建 类 时 静态 地 创建 这 些 成 员 变 量 。 这 样 可 以 节省 
为 这 些 成 员 变 量 分 配 内 存 的 开销 。 

有 时 候 看 起 来 必须 动态 地 创建 类 实例 ， 因 为 它 是 其 他 类 的 成 员 变量 ， 而 且 用 于 创建 该 成 员 
变量 的 资源 在 创建 类 实例 时 还 未 就 络 。 一 种 解决 模式 是 将 这 个 “问题 类 ”( 而 不 是 指向 它 
的 指针 ) 声明 为 其 他 类 的 成 员 ， 并 在 创建 其 他 类 时 部 分 初始 化 这 个 “问题 类 ”。 然 后 ， 在 
“问题 类 ”中 定义 一 个 用 于 在 资源 准备 就 绪 时 完全 地 初始 化 变量 的 成 员 函 数 。 最 后 ,在原 
来 使 用 new 表达 式 动 态 地 创建 实例 的 地 方 ， 插 入 一 段 调用 这 个 初始 化 成 员 函 数 的 代码 就 可 
以 了 。 这 种 常用 的 解决 模式 被 称 为 两 段 初 始 化 。 

“两 段 初 始 化 ”没有 额外 开销 ， 因 为 成 员 变量 在 完全 创建 之 前 是 无 法 使 用 的 。 任 何 判断 成 
员 变量 是 否 初 始 化 完成 的 开销 ， 都 与 判断 指向 它 的 指针 是 否 为 nuttptr 的 开销 是 相同 的 。 
这 种 方法 还 有 一 个 额外 的 好 处 ， 那 就 是 初始 化 成 员 函 数 可 以 返回 错误 代码 或 是 其 他 信息 ， 
而 构造 函数 则 不 行 。 

当 一 个 类 必须 在 初始 化 的 过 程 中 做 一 些 非常 耗 时 的 事情 ， 如 读 取 文 件 (这 可 能 会 失败 ) 或 
是 从 互联 网 上 获取 网 页 的 内 容 时 ,“ 两 段 初 始 化 ”特别 有 效 。 提 供 一 个 单独 的 初始 化 函数 
使 得 与 其 他 程序 活动 一 起 并 发 地 (请 参见 第 12 章 ) 进行 这 类 初始 化 工作 成 为 可 能 ， 而 且 
如 果 失 败 了 ， 也 很 容易 进行 第 二 次 初始 化 。 


6.3.2 ”使 用 静态 数据 结构 


std::string、std::vector、std::map 和 std::list 是 C++ 程序 员 几 乎 每 天 必用 的 容器 。 
只 要 使 用 得 当 ， 它 们 的 效率 还 是 比较 高 的 。 但 它们 并 非 是 唯一 选择 。 当 向 容器 中 添加 新 
的 元 素 时 ，std: :string 和 std::vector 偶尔 会 重新 分 配 它们 的 存储 空间 。std: :map 和 
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std: :List 会 为 每 个 新 添加 的 元 素 分 配 一 个 新 节点 。 有 时 ， 这 种 开销 非常 昂贵 。 下 面 我 们 
来 看 看 其 他 选择 。 

1. 用 std: :array 替 代 std: :vector 

std::vector 允许 程序 定义 任意 类 型 的 动态 大 小 的 数组 。 如 果 在 编译 时 能 够 知道 数组 的 大 小 ， 
或 是 最 大 的 大 小 ， 那 么 可 以 使 用 与 std: :vector 具有 类 似 接口 ， 但 数组 大 小 固定 且 不 会 调 
用 内 存 管理 器 的 std: :array。 


std::array 支持 复制 构造 ， 且 提供 了 标准 库 风 格 的 随机 访问 迭代 器 和 下 标 运算 符 []。 
size() 函数 会 返回 数组 的 固定 大 小 。 


从 性 能 优化 的 角度 看 ，std::array 几乎 与 C 风格 的 数组 不 分 伯仲 ， 从 编程 的 角度 看 ， 
std: :array 与 标准 库容 器 具有 相似 性 。 


2. 在 栈 上 创建 大 块 缓冲 区 

在 第 4 章 中 我 讲解 了 随 着 字符 串 的 增长 ， 可 能 需要 重新 分 配 内 存 空间 ， 因 此 向 字符 串 中 插 
入 一 个 字符 或 是 子 字符 串 的 开销 非常 昂贵 。 如 果 开 发 人 员 能 够 知道 字符 串 可 能 会 增 至 的 最 
大 长 度 ， 或 者 至 少 估算 出 一 个 比较 合理 的 最 大 长 度 ， 那 么 就 可 以 使 用 一 个 具有 自动 存储 期 
且 长 度 超过 可 能 的 最 大 长 度 的 C 风格 的 字符 数组 作为 临时 字符 串 ， 然 后 利用 这 个 临时 字符 
串 进 行 字符 串 连 接 操作 ， 最 后 再 将 结果 从 临时 字符 串 中 复制 出 来 。 

这 种 设计 模式 是 调用 函数 来 创建 或 是 改变 那些 被 声明 为 大 型 自动 数组 的 数据 。 该 函数 会 从 
参数 中 将 数据 复制 至 局 部 数组 中 ， 并 在 这 个 静态 数组 上 执行 插入 操作 、 删 除 操作 或 是 其 他 
排列 操作 。 

尽管 在 栈 上 可 以 声明 的 总 存储 空间 是 有 限 的 ， 但 这 种 限制 往往 非常 大 。 例 如 ， 在 桌面 系统 
中 ， 除 非 算 法 会 进行 深度 递归 计算 ， 否 则 通常 都 会 有 足够 的 空间 来 分 配 可 容纳 10 000 个 字 
符 的 数组 。 

担心 可 能 会 发 生 局 部 数组 溢出 的 谨慎 的 开发 人 员 ， 可 以 先 检查 参数 字符 串 或 是 数组 的 长 
度 ， 如 果 发 现 参数 长 度 大 于 局 部 数组 变量 的 长 度 了 ， 那 么 就 使 用 动态 构建 的 数组 。 

为 什么 这 种 复制 的 速度 比 使 用 std: :string 等 动态 数据 结构 要 快 呢 ? 其 中 一 个 原因 是 变 值 
操作 通常 会 复制 输入 数据 。 另 一 个 原因 则 是 ， 相 比 于 为 中 间 结 果 分 配 动态 存储 空间 的 开 
销 ， 在 桌面 级 硬件 上 复制 上 千 字 市 的 开销 更 小 。 

3. 静态 地 创建 链 式 数据 结构 

可 以 使 用 静态 初始 化 的 方式 构建 具有 链 式 数据 结构 的 数据 。 例 如 ， 可 以 静态 地 创建 图 6-1 
中 所 展示 的 树 形 结构 。 
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图 6-1: 简单 树 形 结构 


A 








在 这 个 例子 中 ， 这 棵 树 是 一 棵 二 分 查找 树 ， 节 点 在 一 个 广度 优先 〈breadth-first) 顺序 的 数 
组 中 ， 其 中 第 一 个 节点 是 根 节 点 : 


struct treenode { 

char const* name; 

treenode* left; 

treenode* right; 

} tree[] = { 

{ "D", &tree[1], &tree[2] } 
&tree[3], &tree[4] }, 
&tree[5], nullptr }, 
nullptr, nullptr }, 
nullptr, nullptr }, 
nullptr, nullptr }, 




















me en en 
mm 中 二 中 
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3} 


这 段 代码 之 所 以 能 够 正常 工作 ， 是 因为 数组 元 素 的 地 址 是 常量 表达 式 。 我 们 可 以 使 用 这 种 
标记 法 定义 任何 链 式 结构 ， 但 是 这 种 初始 化 方法 难以 记 住 ， 所 以 在 构建 这 种 结构 时 很 容易 
出 现 编码 错误 。 


另外 一 种 静态 地 创建 链 式 结构 的 方法 是 为 结构 中 的 每 个 元 素 都 初始 化 一 个 变量 。 这 种 方式 

非常 容易 记忆 ， 但 是 它 的 缺点 是 必须 特别 声明 前 向 引用 〈 就 像 下 面 示 例 代码 中 从 第 四 个 节 

点 前 向 引用 到 第 一 个 节点 这 样 )。 声 明 这 种 结构 的 最 自然 的 方法 〈 第 一 个 节点 、 第 二 个 节 

点 、 第 三 个 节点 、 第 四 个 节点 的 顺序 ) 需要 将 这 四 个 变量 都 声明 为 extern。 之 所 以 我 在 下 

面 的 代码 片段 中 反 过 来 定义 它们 ， 是 因为 这 样 可 以 使 得 大 多 数 引 用 都 指向 已 经 定义 的 变量 : 
struct cyclenode { 


char const* name; 
cyclenode* next; 
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} 

extern cyclenode first; // 前 向 引用 
cyclenode fourth = { "4", &first ); 
cyclenode third = { "3", &fourth }; 
cyclenode second = { "2", &third }; 
cyclenode first = { "1", &second }; 


4. 在 数组 中 创建 二 又 树 

大 多 数 开发 人 员 都 知道 二 又 树 是 链 式 数据 结构 ， 其 中 每 个 布点 都 是 包含 指 问 左 侧 和 右 侧 
子 市 点 的 指针 的 单独 的 类 实例 。 以 这 种 方式 定义 二 又 树 的 不 到 的 结果 是 ， 即 使 对 于 存储 
小 至 一 个 字符 的 类 也 需要 足够 的 存储 空间 来 存储 两 个 指针 ， 另 外 还 需要 加 上 内 存 管理 器 
的 开销 。 

一 种 解决 方法 是 在 数组 中 构建 二 又 树 ， 然 后 不 在 节点 中 保存 子 节 点 的 链接 ， 而 是 利用 节点 
的 数组 索引 来 计算 子 节 点 的 数组 索引 。 如 果 节 点 的 索引 是 六 那么 它 的 两 个 子 节点 的 索引 
分 别 是 2 和 2i+1。 这 种 方法 带 来 的 另外 一 个 好 处 是 ， 能 够 很 快 地 知道 父 节 点 的 索引 是 i/2。 
由 于 这 些 乘法 和 除法 运算 在 代码 中 可 以 实现 为 左 位 移 和 右 位 移 ， 因 此 即使 在 处 理 能 力 非常 
差 的 处 理 器 上 这 些 计算 也 不 会 太 慢 。 

以 数组 方式 实现 的 树 中 的 节点 需要 一 种 机 制 来 判断 它们 的 左 节点 和 右 节 点 是 否 有 效 ， 或 是 
它们 是 否 等 于 空 指 针 。 如 果树 是 左 平 衡 的 ， 那 么 用 一 个 整数 值 保 存 第 一 个 无 效 节点 的 数组 
索引 就 足够 了 。 

这 些 特性 能 够 计算 子 节 点 和 父 节 点 的 能 力 以 及 左 平衡 树 所 表现 出 的 高 效 
堆 数据 结构 而 言 ， 在 数组 中 构建 树 是 一 种 高 效 的 实现 方法 。 

对 于 平衡 二 又 树 而 言 ， 数 组 形式 的 树 可 能 会 比 链 式 树 低 效 。 有 些 平衡 算法 保存 一 棵 及 个 
节点 的 树 可 能 需要 2n 长 度 的 数组 。 而 且 ， 一 次 平衡 操作 需要 复制 节点 到 不 同 的 数组 位 置 
中 ， 而 不 仅仅 是 更 新 指针 。 在 更 加 小 型 的 处 理 器 上 ， 对 有 很 多 节点 的 树 进 行 处 理 时 ， 这 种 
复制 操作 的 开销 可 能 非常 大 。 但 是 ， 如 果 节 点 的 大 小 小 于 三 个 指针 时 ， 数 组 形式 的 树 可 能 
会 在 性 能 上 领先 。 

5. 用 环形 缓冲 区 替代 双 端 队列 

std::deque 和 std::List 经 常 被 用 于 FIFO (first-in-first-out， 先 进 先 出 ) 缓冲 区 ， 以 至 于 在 
标准 库 中 有 一 个 称 为 std: :queue 的 容器 适配器 。 

其 实 ， 还 可 以 在 环形 缓冲 区 上 实现 双 端 队列 。 环 形 缓冲 区 是 一 个 数组 型 的 数据 结构 ， 其 
中 ， 队 列 的 首尾 两 端 由 两 个 数组 索引 对 数组 的 长 度 取 模 给 定 。 环 形 缓冲 区 与 双 端 队列 有 
着 相似 的 特性 ， 包 括 都 有 时 间 开 销 为 常量 时 间 的 push_back() 和 pop_front() 以 及 随机 访 
问 和 迭代 器 。 不 过 ， 只 要 缓冲 区 消费 者 跟 得 上 缓冲 区 生产 者 ， 环 形 缓 冲 区 就 无 需 重 新 分 配 
内 存 。 环 形 缓冲 区 的 大 小 并 不 决定 它 能 处 理 多 少 输入 数据 ， 而 是 决定 了 缓冲 区 生产 者 能 
领先 多 少 。 

环形 缓冲 区 与 链表 或 是 双 端 队列 的 不 同 在 于 ， 环 形 缓冲 区 使 得 缓冲 区 中 元 素 的 数量 限制 变 
得 可 见 。 通 过 暴露 这 项 限制 条 件 给 使 用 者 来 特 化 通用 队列 数据 结构 ， 使 得 显著 地 性 能 提升 
成 为 可 能 。 





















































使 得 对 于 













































































在 Boost 中 ， 环 形 缓冲 区 (http://www.boost.org/doc/libs/1_58_0/doc/html/circular_buffer. 
html) 被 实现 为 了 标准 库容 器 。 在 互联 网 上 还 有 许多 其 他 实现 方式 。 我 们 可 以 用 静态 缓冲 
区 设计 一 个 大 小 由 模板 参数 确定 ， 具 有 初始 大 小 ， 需 要 一 次 内 存 分 配 的 环形 缓冲 区 ， 抑 或 
是 用 像 std: :vector 一 样 具 有 动态 可 变 大 小 的 缓冲 区 来 设计 环形 缓冲 区 。 环 形 缓冲 区 的 性 
能 与 std::vector 相近 。 


6.3.3 ”使 用 std: :make_shared 替 代 new 表 达 式 


像 std::shared_ptr 这 样 的 共享 指针 实际 上 了 包含 了 两 个 指针 : 一 个 指针 指向 
std: :shared_ptr 所 指向 的 对 象 ， 另 一 个 指针 指向 一 个 动态 变量 ， 该 变量 保存 了 被 所 有 指向 
该 对 象 的 std: :shared_ptr 所 共享 的 引用 计数 。 因 此 ， 下 面 这 条 语句 : 

std: :shared_ptr<MyCLass> p(new MyClass("hello", 123)); 
会 调用 两 次 内 存 管 理 器 : 第 一 次 用 于 创建 Myclass 的 实例 ， 第 二 次 用 于 创建 被 隐藏 起 来 的 
引用 计数 对 象 。 
在 C++11 之 前 ,分 配 引 用 计数 器 的 开销 是 添加 侵入 式 引 用 计数 作为 Myclass 的 基 类 ， 然 后 
创建 一 个 自 定 义 的 智能 指针 使 用 该 侵入 式 引 用 计数 。 

Custom_shared_ptr<RCCLass> p(new RCClass("Goodbye", 999)); 
C++ 标准 库 的 编写 者 在 了 解 到 了 开发 人 员 的 这 种 痛 兰 后 ， 编 写 了 一 个 称 为 std: :make_ 
shared() 的 模板 国 数 ， 这 个 国 数 可 以 分 配 一 块 独立 的 内 存 来 同时 保存 引用 计数 和 MyCtass 
的 一 个 实例 。std: :shared_ptr 还 有 一 个 删除 器 函数 ， 它 知道 被 共享 的 指针 是 以 这 两 种 方式 
中 的 哪 一 种 被 创建 的 。 现 在 ， 你 应 该 知道 为 什么 当 你 在 调试 器 中 进入 到 std: :shared_ptr 
内 部 后 会 发 现 它 的 内 部 看 起 来 非常 复杂 了 吧 : 
make_shared() 的 使 用 方法 很 简单 : 

std: :shared_ptr<MyCLass> p = std::make_shared<MyClass>("hello", 123); 
也 可 以 使 用 更 简单 的 C++11 风格 的 声明 : 


auto p = std::make_shared<MyClass>("hello", 123); 


6.3.4 不 要 无 谓 地 共享 所 有 权 

多 个 std: :shared_ptr 实例 可 以 共享 一 个 动态 变量 的 所 有 权 。 当 各 个 指针 的 生命 周期 会 不 可 
预测 地 发 生 重 双 时，shared_ptr 非常 有 用 。 但 它 的 开销 也 很 昂贵 。 增 加 和 减少 shared_ptr 
中 的 引用 计数 并 不 是 执行 一 个 简单 的 增 量 指令 ， 而 是 使 用 完整 的 内 存 屏障 (请 参见 12.2.7 
节 ) 进行 一 次 非常 昂贵 的 原子 性 增加 操作 ， 这 样 shared_ptr 才能 工作 于 多 线程 程序 中 。 

如 果 一 个 shared_ptr 的 生命 周期 完全 地 包含 了 另 一 个 shared_ptr 的 生命 周期 ， 那 么 第 二 
个 shared_ptr 的 开销 是 无 谓 的 。 下 面 的 代码 描述 了 一 种 经 常 发 生 的 场景 : 


void fiddle(std::shared_ptr<Foo> f); 







































































shared_ptr<Foo> myFoo = make_shared<Foo>(); 
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fiddle(myFoo); 


myFoo 拥有 动态 变量 的 实例 Foo。 当 程序 调用 fiddle() 时 ， 会 创建 第 二 个 指向 动态 F00 实 
例 的 链接 ， 并 增加 shared_ptr 的 引用 计数 。 当 fiddle() 返回 时 ，shared_ptr 参数 会 释放 
它 对 动态 F00 实例 的 所 有 权 ， 但 调用 方 仍然 拥有 指针 。 这 次 调用 的 最 小 开销 是 一 次 无 谓 的 
原子 性 增加 和 减 小 操作 ， 而 且 这 两 次 操作 都 带 有 完整 的 内 存 屏障 。 在 一 次 函数 调用 过 程 
中 ， 这 种 开销 微不足道 。 但 是 作为 一 项 编程 实践 ， 如 果 在 程序 中 传递 每 个 指向 F00 的 指针 
的 函数 参数 时 都 使 用 shared_ptr， 那 么 整个 开销 就 是 非常 巨大 的 。 


将 传递 给 fiddle() 的 参数 改 为 一 个 普通 指针 可 以 避免 这 种 开销 : 
void fiddle(Foo* f); 



































shared_ptr<Foo> myFoo = make_shared<Foo>(); 
fiddle(myFoo.get()); 


在 C++ 编程 世界 中 有 一 个 常识 ， 那 就 是 永远 不 要 在 程序 中 使 用 C 风格 的 指针 ， 除 非 是 要 
实现 智能 指针 。 但 是 也 有 另外 一 种 观点 认为 ， 只 要 理解 了 普通 指针 ， 那 么 使 用 它们 作为 无 
主 指针 是 没有 问题 的 。 如 果 在 一 个 团队 中 ， 开 发 人 员 都 强烈 地 认为 普通 指针 是 “恶魔 的 游 
戏 ”， 那 么 可 以 使 用 引用 达到 同样 的 效果 。 将 函数 参数 改 为 Foo& 传递 出 了 两 条 信息 : 第 一 ， 
调用 方 负责 确保 在 调用 过 程 中 引用 是 有 效 的 ;第 二 ， 指 针 是 非 空 指针 。 

void fiddLe(Foo& f); 























shared_ptr<Foo> myFoo = make_shared<Foo>(); 
if (myFoo) 
fiddle(*myFoo.get()); 
解 引 运算 符 * 将 get() 返回 的 指向 F00 的 指针 转换 为 指向 F00 的 引用 。 也 就 是 说 ， 这 不 会 
产生 任何 代码 ， 只 是 对 编译 器 的 提示 。 在 C++ 的 编程 世界 中 ， 引 用 是 一 种 “习俗 ”， 它 表 
示 “ 无 主 且 非 空 的 指针 ”。 


6.3.5 ”使 用 “ 主 指针 ”拥有 动态 变量 
std: :shared_ptr 很 简单 。 它 会 自动 管理 动态 变量 。 但 是 正如 之 前 提 到 过 的 ， 共 享 指针 的 开 
销 是 昂贵 的 。 在 许多 情况 下 ， 这 都 是 没 必要 的 。 

经 常 出 现 的 一 种 情况 是 ， 一 个 单独 的 数据 结构 在 它 的 整个 生命 周期 内 拥有 动态 变量 。 才 
动态 变量 的 引用 或 是 指针 可 能 会 被 传递 给 函数 和 被 函数 返回 ， 或 是 被 赋值 给 变量 ， 等 等 。 
但 是 在 这 些 引 用 中 ， 没 有 哪个 的 寿命 比 “ 主 引用 ”长 。 

如 果 存 在 主 引 用 ， 那 么 我 们 可 以 使 用 std: :unique_ptr 高 效 地 实现 它 。 然 后 ， 我 们 可 以 在 
国 数 调用 过 程 中 ， 用 普通 的 C 风格 的 指针 或 是 C++ 引用 来 引用 该 对 象 。 如 果 在 程序 中 贯 
彻 了 这 种 方针 ， 那 么 普通 指针 和 引用 就 会 被 记录 为 “无 主 ” 指 针 。 

当 离 开 了 使 用 std: :shared_ptr 时 ， 一 部 分 开发 人 员 会 变 得 不 安 。 不 过 ， 这 些 开 发 人 
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天 使 用 友 代 器 ， 却 丝毫 没有 意识 到 也 许 它 们 的 行为 与 无 主 指针 一 样 ， 可 能 会 失效 。 就 我 在 
多 个 大 型 项 目 中 使 用 “ 主 指 针 ” 的 经 验 而 言 ， 实 际 上 并 不 会 发 生 导 致 内 存 泄 漏 或 是 双重 释 
放 的 问题 。 当 指针 的 拥有 者 显而易见 时 ， 使 用 “ 主 指针 ”性 能 会 更 好 ， 而 当 不 确定 指针 的 
拥有 者 时 ， 可 以 使 用 std: :shared_ptr。 


6.4 减少 动态 变量 的 重新 分 配 


动态 变量 带 来 的 便利 太 多 了 。 我 首先 想到 了 std: :string。 但 这 并 不 意味 着 开发 人 员 可 以 
大 意 。 当 使 用 标准 库容 器 时 ， 总 是 有 技术 可 以 帮助 我 们 减少 内 存 分 配 的 次 数 。 我 们 可 以 泛 
化 这 些 技术 ， 让 它们 也 适用 于 开发 人 员 自己 的 数据 结构 。 


6.4.1 预 分 配 动态 变量 以 防止 重新 分 配 

随 着 在 std: :string 或 是 std: :vector 上 数据 的 增加 ， 它 内 部 的 动态 分 配 的 存储 空间 终究 
会 枯竭 。 下 一 个 添加 操作 会 导致 需要 分 配 更 大 的 存储 空间 ， 以 及 将 旧 的 数据 复制 到 新 存储 
空间 中 。 对 内 存 管理 器 的 调用 以 及 复制 操作 将 会 多 次 访问 内 存 并 消耗 很 多 指令 。 诚 然 ， 添 
加 操作 的 时 间 开 销 是 0(1),， 但 是 比例 常量 ( 即 常量 时 间 是 多 少 毫 秒 ) 可 能 会 非常 大 。 
string 和 vector 都 有 成 员 函 数 reserve(size_t n), 调用 该 函数 会 告诉 string 或 是 vector 
请 确保 至 少 有 存储 n 个 元 素 的 空间 。 如 果 可 以 事先 计算 或 是 预 估 出 这 个 大 小 ， 那 么 调用 
reserve() 为 string 或 是 vector 预 留 足够 的 内 部 存储 空间 ， 可 以 避免 出 现 它 们 到 达 增 长 极 
限 后 需要 重新 分 配 存储 空间 的 情况 : 















































std::string errmsg; 

errmsg.reserve(100); // 下 面 这 些 字符 串 连 接 操作 中 只 会 发 生 一 次 内 存 分 配 
errmsg += "Error 1234: variable "; 

errmsg += Varname 

errmsg += "Was Used before set. Undefined behavior."; 


调用 reserve() 如 同 是 对 string 或 是 vector 的 一 种 提示 。 与 分 配 最 差 情况 下 的 静态 缓存 不 
同 的 是 ， 即 使 过 小 地 估计 了 预 留 的 容量 ， 惩 罚 也 不 过 是 额外 的 重新 分 配 。 而 即使 过 大 地 佑 
计 了 预 留 的 容量 ， 只 要 string 或 是 vector 会 在 短暂 地 使 用 后 被 销毁 ， 就 都 设 有 问题 。 在 
使 用 reserve() 预 分 配 string 或 是 vector 后 ， 还 可 以 使 用 std::string 或 是 std: :vector 
的 shrink_to_fit() 成 员 函 数 将 未 使 用 的 空间 返回 给 内 存 管理 器 。 


标准 库 散 列表 类 型 std: :unordered_map (请 参见 10.8 节 ) 有 一 个 链接 到 其 他 数据 结构 的 骨 
干 数组 ( 桶 的 链表 )。 它 也 有 一 个 reserve() 成 员 函 数 。 不 幸 的 是 ，std: :deque 虽然 也 有 一 
个 骨干 数组 ， 却 没有 reserve() 成 员 函 数 。 

如 果 开 发 人 员 在 设计 包含 了 骨干 数组 的 数据 结构 上 时， 能够 实现 用 于 预 分 配 骨 干 数组 的 内 存 
的 reserve() 函数 ， 那 就 帮 了 这 些 数据 结构 的 用 户 一 个 大 忙 了 。 


6.4.2 在 循环 外 创建 动态 变量 


在 下 面 这 段 代码 中 ， 循 环 虽 小 ， 问 题 却 大 。 这 段 程序 会 将 namelist 中 的 每 个 文件 中 的 每 行 
都 添加 到 std: :string 类 型 的 变量 config 中 ， 接 着 再 从 config 中 抽出 一 小 部 分 数据 。 问 
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题 出 在 每 次 循环 中 都 会 创建 config， 并 且 在 每 次 循环 内 部 ， 随 着 config 的 不 断 增 大 ， 都 
和 二 在 循环 末尾 离开 了 它 的 作用 域 后 ， config 将 会 被 销毁 ， 它 的 存储 
for (auto& filename : namelist) { 
std::string config; 
ReadFileXML(filename, config); 


ProcessXML(config); 
} 


提高 这 段 循环 的 性 能 的 一 种 方法 是 将 config 的 声明 移 至 循环 外 部 。 在 每 次 循环 中 ， 我 都 
会 先 清除 该 变量 。 不 过 ，clear() 函数 并 不 会 释放 config 内 部 的 动态 缓冲 区 ， 它 只 是 将 
config 的 内 容 的 长 度 设 置 为 0。 从 第 二 次 循环 开始 ， 只 要 接 下 来 的 文件 没有 比 第 一 次 循环 
中 使 用 的 文件 大 很 多 ， 就 不 会 重新 分 配 内 存 : 
std::string config; 
for (auto& filename : namelist) { 
config.clear(); 
ReadFileXML(filename, config); 


ProcessXML(config); 
} 


本 节 主 题 的 一 种 变化 形式 是 将 config 声明 为 类 的 成 员 变 量 。 ee one 
种 修改 方式 像 是 滥用 全 局 变量 。 不 过 ， 延 长 动态 分 配 内 存 的 变量 的 生命 周期 可 以 显著 提 
升 性 能 。 
这 种 技巧 不 仅 适 用 于 std: :string， 也 适用 于 std: :vector 和 其 他 任何 拥有 动态 大 小 骨架 的 
数据 结构 。 















































优化 战争 故事 

我 曾经 编写 过 一 个 多 线程 程序 ， 其 中 的 每 个 线程 都 会 进入 一 个 类 实例 ， 记 录 它 们 自身 
的 活动 。 记 录 函 数 原来 定义 了 一 个 局 部 临时 字符 串 变量 来 保存 格式 化 的 记录 信息 。 我 
发 现 当 超过 6 个 线程 时 ， 由 于 每 个 线程 都 会 请 求 内 存 管理 器 来 为 记录 信息 分 配 内 存 ， 
这 种 竞争 内 存 管理 器 的 现象 导致 性 能 陡然 下 降 。 解 决 方法 是 将 保存 每 一 行 记 录 信 息 的 
A ns dl a ,所 复 用 。 当 这 个 字 

符 串 被 使 用 一 定 次 数 后 ， 它 会 变 得 足够 长 ， 这 样 就 可 以 避免 重新 分 配 内 存 。 我 取得 的 
最 大 战果 是 在 一 个 大 型 程序 中 反复 使 用 这 个 技巧 来 获取 最 大 程度 的 性 能 改善 ， 使 得 程 
序 (一 个 电话 服务 器 ) 轻易 地 扩容 至 同时 呼 入 数量 的 10 们 。 


6.5 移 除 无 谓 的 复制 


在 Kernighan 和 Ritchie (K &R) 定义 的 C 中 ， 所 有 可 以 被 直接 赋值 的 实体 都 是 char、 
int、float 和 指针 等 基本 类 型 ， 它 们 都 会 被 保存 在 一 个 单独 的 寄存 器 中 。 因 此 ， ne 
b 这 样 的 赋值 语句 是 高 效 的 ， 只 会 生成 一 两 个 用 于 获取 b 的 值 并 将 其 存在 a 中 的 指令 。 在 
C++ 中 ，char、iint 或 是 float 等 基本 类 型 的 赋值 同样 高 效 。 




































































但 是 ， 在 C++ 中 ， 也 存在 着 看 似 简 单 ， 但 其 实 并 不 高 效 的 赋值 语句 。 如 果 a 和 bp 都 是 
BigClass 类 的 实例 ， 那 么 赋值 语句 a = b; 会 调用 Bigclass 的 赋值 运算 符 成 员 函 数 。 赋 值 运 
算 符 可 以 只 是 简单 地 将 b 的 字段 全 部 复制 到 a 中 去 。 但 是 问题 在 于 这 个 函数 可 能 会 做 任何 
C++ 国 数 都 会 做 的 事情 。BtgCtass 可 能 有 很 多 字段 需要 复制 。 如 果 Bigclass 中 有 动态 变量 ， 
复制 它们 可 能 会 引发 对 调用 内 存 管理 器 的 调用 。 如 果 Bigclass 中 有 一 个 保存 有 数 百 万 元 素 
的 std: :map 或 是 一 个 保存 有 数 百 万 字符 的 字符 数组 ， 那 么 赋值 语句 的 开销 会 非常 大 。 


在 C++ 中 ， 如 果 Foo 是 一 个 类 ， 初 始 化 声明 Foo a = b; 可 能 会 调用 一 个 称 为 复制 构造 函 
数 的 成 员 函 数 。 复 制 构 造 函 数 和 赋值 运算 符 是 两 个 紧密 相关 的 成 员 函 数 ， 它 们 所 做 的 事情 
几乎 相同 : 将 一 个 类 实例 中 的 字段 复制 到 另 一 个 类 实例 中 去 。 而 且 与 赋值 运算 符 一 样 ， 复 
制 构造 函数 的 开销 是 没有 上 限 的 。 


开发 人 员 在 寻找 一 段 热点 代码 中 的 优化 机 会 时 ， 必 须 特 别 注 意 赋值 和 声明 ， 因 为 在 这 些 地 
方 可 能 会 发 生 昂贵 的 复制 。 实 际 上 ， 复 制 可 能 会 发 生 于 以 下 任何 一 种 情况 下 : 

。 初始 化 (调用 构造 函数 ) 

。 赋值 〈 调 用 赋值 运算 符 ) 

。 函数 参数 (每 个 参数 表达 式 都 会 被 移动 构造 函数 或 复制 构造 函数 复制 到 形 参 中 ) 

。 函数 返回 (调用 移动 构造 函数 或 复制 构造 函数 ， 其 至 可 能 会 调用 两 次 ) 

。 插入 一 个 元 素 到 标准 库容 器 中 (会 调用 移动 构造 函数 或 复制 构造 函数 复制 元 素 ) 

。 插入 一 个 元 素 到 vector 中 (如果 需 要 重新 为 vector 分 配 内 存 ， 那 么 所 有 的 元 素 都 会 通 
过 移动 构造 函数 或 复制 构造 函数 复制 到 新 的 vector 中 ) 


Scott Meyers 在 他 的 著作 Effective C++ 中 就 复制 构造 进行 了 广泛 而 详细 的 讲解 。 以 上 这 上 段 


简短 的 总 结 只 是 一 个 纲要 。 


6.5.1 在 类 定义 中 禁止 不 希望 发 生 的 复制 
并 非 程序 中 所 有 的 对 象 都 应 当 被 复制 。 例 如 ， 有 具有 实体 行为 的 对 象 请 参见 6.1.3 节 ) 不 
应 当 被 复制 ， 否 则 会 失去 它们 的 意义 。 
许多 具有 实体 行为 的 对 象 都 会 有 一 些 状态 (例如 ， 一 个 保存 了 1000 个 字符 串 的 vector 或 
是 一 个 保存 了 1000 个 符号 的 符号 表 )。 如 果 程 序 不 经 意 地 将 实体 复制 到 了 一 个 会 检查 该 实 
体 状 态 的 函数 中 ， 虽 然 在 功能 上 是 没有 问题 的 ， 但 是 运行 时 开销 会 非常 大 。 
如 果 复 制 类 实例 过 于 昂贵 或 是 不 希望 这 么 做 ， 那 么 一 种 可 以 有 效 地 避免 发 生 这 种 昂贵 开销 的 
方法 就 是 禁止 复制 。 将 复制 构造 函数 和 赋值 运算 符 的 可 见 性 声明 为 private 可 以 防止 它们 被 
外 部 调用 。 既 然 它 们 无 法 被 调用 ， 那 么 也 就 不 需要 任何 定义 ， 只 需要 声明 就 足够 了 。 例 如 : 

// 在 C++11 之 前 禁止 复制 的 方法 

class BigClass { 

private: 

BigClass(BigClass const8); 


BigClass& operator=(BigClass const&); 
public: 
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在 C++11 中 ， 我 们 可 以 在 复制 构造 函数 和 赋值 运算 符 后 面 加 上 delete 关键 字 来 达到 这 个 
目的 。 将 带 有 delete 关键 字 的 复制 构造 国 数 的 可 见 性 设 为 public 更 好 ， 因 为 在 这 种 情况 
下 调用 复制 构造 函数 的 话 ， 编 译 器 会 报告 出 明确 的 错误 消息 : 
// 在 C++11 中 禁止 复制 的 方法 
class BigClass { 
public: 
BigClass(BigClass const&) = delete; 
BigClass& operator=(BigClass const&) = delete; 






































} 


任何 企图 对 以 这 种 方式 声明 的 类 的 实例 赋值 一 一 或 通过 传 值 方式 传递 给 函数 ， 或 通过 传 值 
方式 返回 ,或 是 将 它 用 作 标 准 库容 器 的 值 时 一 一 都 会 导致 发 生 编 译 错误 。 

但 是 还 可 以 用 指向 该 类 的 指针 和 引用 来 赋值 或 初始 化 变量 ， 或 是 在 函数 中 传递 和 返回 指向 
该 类 实例 的 引用 或 指针 。 从 性 能 优化 的 角度 看 ， 使 用 指针 或 引用 进行 赋值 和 参数 传递 ， 或 
是 返回 指针 或 引用 更 加 高 效 ， 因 为 指针 或 引用 是 存储 在 寄存 器 中 的 。 


6.5.2” 移 除 函 数 调用 上 的 复制 


在 本 市 中 ,我 将 首先 详细 讲解 在 函数 调用 过 程 中 C++ 程序 计算 参数 时 发 生 的 开销 。 请 仔 
细 阅 读本 节 中 的 内 容 ， 因 为 此 处 的 结论 对 于 性 能 优化 而 言 是 非常 重要 的 。 当 程序 调用 函数 
时 ， 会 计算 每 个 参数 表达 式 ， 并 以 相对 应 的 参数 表达 式 的 值 作为 初始 化 器 创建 每 个 形 参 。 


“创建 ”意味 着 会 调用 形 参 的 构造 函 数 。 当 形 参 是 诸如 int、double 或 是 char* 等 基本 类 型 
时 ， 由 于 基本 类 型 的 构造 函数 是 概念 上 的 而 非 实际 的 函数 ， 因 此 程序 只 会 简单 地 将 值 复制 
到 形 参 的 存储 空间 中 。 


但 是 当 形 参 是 某 个 类 的 实例 时 ， 程 序 将 调用 这 个 类 的 复制 构造 函数 之 一 来 初始 化 实例 。 通 
常情 况 下 ， 复 制 构造 函数 都 是 一 个 实际 的 函数 。 程 序 会 调用 这 个 函数 ， 不 论 复 制 构造 函数 
做 了 什么 。 如 果 参 数 类 是 一 个 含有 100 万 个 元 素 的 std: :list， 那 么 复制 构造 函数 将 会 调 
用 100 万 次 内 存 管理 器 来 创建 新 的 元 素 。 如 果 参 数 是 一 个 由 保存 着 字符 串 的 map 构成 的 链 
表 ， 可 能 会 逐 节点 地 复制 整个 数据 结构 。 对 于 一 个 大 型 且 复 杂 的 参数 ， 复 制 所 花费 的 时 间 
可 能 足以 引起 开发 人 员 的 注意 。 但 是 如 果 在 测试 时 参数 中 只 有 几 个 元 素 ， 那 么 蕊 怕 这 个 回 
题 直到 这 种 数据 结构 的 设计 被 广泛 使 用 后 才 会 被 发 现 ， 导 致 其 成 为 提高 程序 可 扩展 性 的 绊 
脚 石 。 请 考虑 以 下 示例 代码 : 
int Sum(std::list<int> v) { 
int sum = 0; 
for (auto it : v) 
SUm += *it; 
return sum; 




















































































































} 
当 调 用 这 里 展示 的 Sum() 函数 时 ， 实 参 是 一 个 链表 : 例如 ，int total = Sum(MyList);。 形 
参 v 也 是 一 个 链表 。v 是 通过 一 个 接收 链表 作为 参数 的 构造 函数 创建 的 。 它 就 是 复制 构造 
函数 。std: :list 的 复制 构造 函数 会 为 链表 中 所 有 的 元 素 创 建 一 份 副本 。 如 果 MyList 总 是 





只 有 几 个 元 素 ， 那 么 这 个 开销 尽管 没有 必要 ， 但 是 依然 可 以 忍受 。 但 是 随 着 MyList 变 大 ， 
这 个 开销 将 会 降低 程序 性 能 。 如 果 它 有 1000 个 元 素 ， 那 么 内 存 管理 器 会 被 调用 1000 次 。 
在 函数 最 后 ， 形 参 v 会 超出 它 的 作用 域 ， 其 中 的 1000 个 元 素 也 会 被 逐一 返回 给 不 会 再 被 
使 用 的 链表 。 
为 了 避免 这 种 开销 ， 我 们 可 以 将 形 参 定义 为 带 有 平凡 (trivial) 构造 函数 的 类 型 。 为 了 将 类 
实例 传递 给 函数 ， 指 针 和 引用 具有 普通 构造 函数 。 例 如 ， 在 之 前 的 例子 中 ， 我 们 可 以 将 v 
定义 为 std: :list<int> const&。 接 着 ,该 引用 会 被 指向 实 参 的 引用 初始 化 ， 而 不 会 使 用 复 
制 构造 函数 初始 化 类 的 实例 。 引 用 通常 被 实现 为 指针 。 


当 一 个 类 和 标准 库容 器 一 起 使 用 时 ， 或 是 这 个 类 包含 了 一 个 必须 要 复制 的 数组 ， 又 或 者 是 
它 有 许多 局 部 变量 ， 那 么 通过 复制 构造 函数 创建 它 的 实例 可 能 会 调用 内 存 管理 器 来 复制 它 
内 部 的 数据 ， 而 传递 指向 类 实例 的 引用 可 以 改善 程序 性 能 。 通 过 引用 访问 实例 也 会 产生 开 
销 ， 每 次 访问 实例 时 ， 都 必须 解 引 实 现 该 引用 的 指针 。 如 果 函 数 很 大 ， 而 且 在 函数 体 中 多 
次 使 用 了 参数 值 ， 那 么 连续 地 解 引 引用 的 开销 会 超过 所 节省 下 来 的 复制 开销 ， 导 致 性 能 改 
善 收益 递减 。 但 是 对 于 小 型 函数 ， 除 了 特别 小 的 类 以 外 ， 通 过 引用 传递 参数 总 是 能 获得 更 
好 的 性 能 。 

引用 参数 的 行为 与 值 参数 并 不 完全 相同 。 引 用 参数 在 函数 内 部 发 生 改 变 会 导致 它 所 引用 的 
实例 也 发 生 改变 ， 但 是 值 参数 在 函数 内 部 发 生 改 变 却 不 会 对 函数 外 的 值 造成 任何 影响 。 将 
引用 参数 声明 为 常量 引用 可 以 防止 不 小 心 修改 所 引用 的 实例 。 

引用 参数 还 会 引入 别名 ， 这 会 导致 不 曾 预 料 到 的 影响 。 也 就 是 说 ， 如 果 函 数 签名 是 ， 


void func(Foo& a, Foo& b); 


函数 调用 func(x,x); 引入 了 一 个 别名 。 如 果 func() 更 新 了 a， 那 么 你 会 发 现 b 突然 也 被 更 
新 了 。 


6.5.3 ” 移 除 函数 返回 上 的 复制 


如 果 函 数 返 回 一 个 值 ， 那 么 这 个 值 会 被 复制 构造 到 一 个 未 命名 的 与 函数 返回 值 类 型 相同 的 
临时 变量 中 。 对 于 Long、double 或 指针 等 基本 类 型 会 进行 默认 的 复制 构造 ， 而 当 变 量 是 类 
时 ， 复制 构造 通常 都 会 发 生 实际 的 函数 调用 。 类 越 大越 复 杂 ， 复 制 构造 函数 的 时 间 开 销 也 
越 大 。 下 面 来 看 一 个 例子 : 


std: :vector<int> scalar_product(std::vector<int> const& v, int c) { 
std: :vector<int> result; 
result.reserve(v.size()); 
for (auto val : v) 
result.push_back(val * c); 
return result; 








































































































} 


正如 在 前 一 市 中 所 讨论 的 一 样 ， 在 有 些 情况 下 ， 通 过 返回 引用 而 不 是 返回 已 经 创建 的 返回 
值 ， 可 以 避免 发 生 复制 构造 开销 。 不 幸 的 是 ， 如 果 在 函数 内 计算 出 返回 值 后 ， 将 其 赋值 给 
了 一 个 具有 自动 存储 期 的 变量 ， 那 么 这 个 技巧 将 无 法 适用 。 当 函数 返回 后 ， 这 个 变量 将 超 
出 它 的 作用 域 ， 导 致 基 挂 引用 将 会 指向 一 块 堆 内 存 尾部 的 未 知 字 三， 而 且 该 区 域 通常 都 会 
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很 快 被 其 他 数据 覆盖 。 更 糟糕 的 是 ， 函 数 计 算 返 回 结 果 是 很 普遍 的 情况 ， 所 以 多 数 函 数 都 
会 返回 值 ， 而 非 引 用 。 

就 像 返回 值 的 复制 构造 的 开销 并 不 算 太 糟糕 ， 调 用 方 常常 会 像 auto res =scalar_ 
product(argarray，10); 这 样 将 函数 返回 值 赋值 给 一 个 变量 。 因 此 ， 除 了 在 函数 内 部 调用 
复制 构造 外 ， 在 调用 方 还 会 调用 复制 构造 函数 或 赋值 运算 符 。 


在 早期 的 C++ 程序 中 ， 这 两 次 复制 构造 函数 的 开销 简直 是 性 能 杀手 。 幸 运 的 是 ，C++ 标 
准 的 制定 人 员 和 许多 优秀 的 C++ 编译 器 找到 了 一 种 移 除 额外 的 复制 构造 函数 调用 的 方法 。 
这 种 优化 方法 被 称 为 复制 省 略 (copy elision) 或 是 返回 值 优化 (return value optimization， 
RVO)。 开 发 人 员 可 能 昕 说 过 RVO， 他 们 会 误 认 为 他 们 可 以 通过 值 返 回 对 象 ， 而 不 必 担 心 
复制 构造 的 性 能 开销 。 但 实际 情况 并 非 这 样 。 只 有 在 某 些 特殊 的 情况 下 编译 器 才能 够 进 
行 RVO。 函 数 必须 返回 一 个 局 部 对 象 。 编 译 器 必须 能 够 确定 在 所 有 的 控制 路 符 上 返回 的 
都 是 相同 的 对 象 。 返 回 对 象 的 类 型 必须 与 所 声明 的 函数 返回 值 的 类 型 相同 。 最 简单 的 情况 
是 ， 如 果 一 个 函数 非常 短小 ， 并 且 只 有 一 条 控制 路 径 ， 那 么 编译 器 进行 RVO 的 可 能 性 非 
常 大 。 如 果 函 数 比 较 庞大 ， 或 是 控制 路 径 有 很 多 分 支 ， 那 么 编译 器 将 难以 确定 是 否 可 以 进 
行 RVO。 当 然 ， 各 种 编译 器 的 分 析 能 力也 是 不 同 的 。 
有 一 种 方法 可 以 移 除 函数 内 部 的 类 实例 的 构造 以 及 从 函数 返回 时 发 生 的 两 次 复制 构造 (或 
是 等 价 于 复制 构造 函数 的 赋值 运算 符 )。 这 需要 开发 人 员 手 动 编 码 实现 ， 所 以 其 结果 肯定 
比 寄 希望 于 编译 器 在 给 定 的 情况 下 进行 RVO 要 好 。 这 种 方法 就 是 不 用 return 语句 返回 
值 ， 而 是 在 函数 内 更 新 引用 参数 ， 然 后 通过 输出 参数 返回 该 引用 参数 : 
void scaLar_product( 

std: :vector<int> Const& v, 

int c, 

vector<int>& result) { 

result.clear(); 

result.reserve(v.size()); 


for (auto val : v) 
result.push_back(val * c); 

























































































} 


这 里 ,我 们 在 函数 参数 列表 中 加 入 了 一 个 称 为 resutt 的 输出 参数 。 这 种 机 制 有 以 下 几 个 
优点 。 


。 当 函 数 被 调用 时 ， 该 对 象 已 经 被 构建 。 有 时， 该 对 象 必 须 被 清除 或 是 重新 初始 化 ， 但 是 
这 些 操作 不 太 可 能 比 构造 操作 的 开销 更 大 。 

。 在 函数 内 被 更 新 的 对 象 无 需 在 return 语句 中 被 复制 到 未 命名 的 临时 变量 中 。 

。 由 于 实际 数据 通过 参数 返回 了 ， 因 此 函数 的 返回 类 型 可 以 是 void， 也 可 以 用 来 返回 状 
态 或 是 错误 信息 。 

。 由 于 在 函数 中 被 更 新 的 对 象 已 经 与 调用 方 中 的 某 个 名 字 绑 定 在 了 一 起 ， 因 此 当 函 数 返回 
时 不 再 需要 复制 或 是 赋值 。 

但 是 等 等 ,还 有 其 他 情况 。 当 在 程序 中 多 次 调用 一 个 函数 时 ， 许 多 数据 结构 (如 字符 串 、 矢 

量 和 散 列 表 ) 都 有 一 个 可 复 用 的 动态 分 配 的 骨干 数组 。 有 时 ， 函 数 的 结果 必须 保存 在 调用 方 

中 ,但 是 这 种 开销 永远 不 会 比 当 函 数 通 过 值 返回 类 的 实例 时 调用 复制 构造 函数 的 开销 大 。 



























































这 种 机 制 会 产生 额外 的 运行 时 开销 ， 例 如 额外 的 参数 开销 吗 ? 甚 实 并 不 会 。 编 译 器 在 处 理 
返回 实例 的 函数 时 ， 会 将 其 转换 为 一 种 带 有 额外 参数 的 形式 。 这 个 额外 的 参数 是 一 个 引 
用 ， 它 指向 为 用 于 保存 函数 所 返回 的 未 命名 的 临时 变量 的 未 初始 化 的 存储 空间 。 

在 C++ 中 有 一 种 情况 只 能 通过 值 返回 对 象 : 运算 符 函 数 。 当 开发 人 员 在 编写 矩阵 计算 函数 
时 ， 如 果 希 望 使 用 通用 的 运算 符 A = B * Cc;， 就 无 法 使 用 引用 参数 。 在 实现 运算 符 函 数 时 
必须 格外 小 心 ， 确 保 它 们 会 使 用 RVO 和 移动 语义 ， 这 样 才能 实现 最 高 效率 。 


6.5.4 ”人 免 复制 库 
当 需 要 填充 的 缓冲 区 、 结 构 体 或 其 他 数据 结构 是 函数 参数 时 ， 传 递 引 用 穿越 多 层 库 调用 的 
开销 很 小 。 我 听 说 过 有 些 叫 作 “ 免 复制 ”的 库 实现 了 这 样 的 行为 。 这 种 模式 出 现在 了 许多 
性 能 需求 严格 的 函数 库 中 。 这 种 方法 值得 学 习 。 
例如 ，C++ 标准 库 istream: :read() 成 员 国 数 的 签名 如 下 : 

istream& read(char* s, streamsize n); 
这 个 函数 会 读 取 n 个 字 苘 的 内 容 到 s 所 指向 的 存储 空间 中 。 这 有 段 缓冲 区 是 一 个 输出 
参数 ， 因 此 要 读 取 的 数据 不 会 被 复制 到 新 分 配 的 存储 空间 中 。 0 
istream: :read() 可 以 将 返回 值 用 于 其 他 用 途 。 在 本 例 中 ， 函 数 将 this 指针 作为 引用 返 
但 是 tskreani: nead) ee 它 会 调用 另外 一 个 国 数 。 在 
某 些 实现 方式 下 ， 它 可 能 会 调用 C 的 库 国 数 fread()。fread() 的 函数 签名 如 下 : 

size t fread(void* ptr, size t size, size t nmemb, FILE* stream); 


fread() 会 读 取 size*nmemb 个 字 节 的 数据 并 将 它们 存储 在 ptr 所 指向 的 存储 空间 中 。 
fread() 中 的 ptr 参数 与 read() 中 的 s 相同 。 


但 是 fread() 并 不 是 调用 链 的 终点 。 在 Linux 上 ，fread() 会 调用 标准 Unix 国 数 read() 
而 在 Windows 上 ，fread() 则 会 调用 Win32 的 Readfile() 函数 。 这 两 个 函数 具有 相似 的 函 
数 签名 : 


ssize t read(int fd, void *buf, size t count); 

























































































BOOL ReadFile(HANDLE hFile, void* buf, DWORD Nn, DWORD* bytesread, 
OVERLAPPED* pOverlapped); 


这 两 个 函数 都 接收 一 个 指向 需要 填充 的 缓冲 区 的 void* 以 及 一 个 要 读 取 的 最 大 字 节 数 。 尽 
管 在 调用 链 中 向 下 传递 的 时 候 ， 它 的 类 型 从 char* 变 为 了 void*， 但 是 指针 指向 的 是 同一 
块 存储 空间 。 
另 一 种 设计 审美 认为 ， 这 些 数据 结构 和 缓冲 区 应 当 通 过 值 返回 。 它 们 是 在 函数 中 创建 的 ， 
因此 不 应 当 存 在 于 函数 调用 之 前 。 如 果 函 数 少 一 个 参数 ， 它 看 起 来 也 更 加 “简单 ”"。C++ 
允许 开发 人 员 通 过 值 返回 数据 结构 ， 因 此 在 C++ 中 ， 这 种 方法 是 一 种 很 “自然 ” 的 方法 。 
无 论 是 Unix 还 是 Windows， 无 论 是 C 还 是 Ct+， 都 有 开发 人 员 躲 在 “ 免 复制 ”的 开发 风 
格 之 后 。 这 种 设计 审美 居然 有 这 么 多 支持 者 ， 对 此 我 感到 很 困惑 ， 因 为 这 种 设计 的 开销 太 
大 了 : 当 数 据 结构 或 缓冲 区 被 传递 于 库 的 各 层 之 间 时 ， 它 们 会 不 止 一 次 地 被 复制 。 如 果 返 
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回 值 有 一 个 动态 变量 ， 那 么 这 个 开销 可 能 还 会 包括 多 次 调用 内 存 管理 器 进行 复制 的 开销 。 
每 次 为 数据 结构 分 配 内 存 和 返回 一 个 指针 ， 都 需要 多 次 转换 指针 的 所 有 权 。RVO 和 移动 
语义 只 能 降低 部 分 开销 ， 而 且 需 要 开发 人 员 仔细 地 实现 它们 。 从 性 能 的 角度 看 ,“ 免 复制 ” 
的 设计 更 加 高 效 。 


6.5.5 “实现 写 时 复制 惯用 法 


写 时 复制 (copy on write，COW) 是 一 项 编程 惯用 法 ， 用 于 高 效 地 复制 那些 含有 复制 开销 
昂贵 的 动态 变量 的 类 实例 。COW 是 一 项 具有 悠久 历史 、 被 广泛 使 用 的 优化 技巧 。 在 过 去 
的 数 年 中 ， 它 被 频繁 地 用 于 C++ 程序 中 ， 特 别 是 用 于 实现 C++ 的 字符 串 类 。Windows 上 
的 CString 字符 串 中 就 使 用 了 COW。 有 些 旧 式 的 std: :string 中 也 使 用 了 COW。 不 过 ， 
C++11 标准 禁止 在 std: :string 中 使 用 COW。COW 并 非 总 是 能 够 带 来 优秀 的 性 能 ， 因 此 
尽管 它 有 光荣 的 历史 ， 但 我 们 仍然 必须 小 心地 使 用 它 。 


通常 来 说 ， 当 一 个 带 有 动态 变量 的 对 象 被 复制 时 ， 也 必须 复制 该 动态 变量 。 这 种 复制 被 称 
为 深 复制 。 通 过 复制 指针 ， 而 不 是 复制 指针 指向 的 变量 得 到 包含 无 主 指针 的 对 象 的 副本 ， 
这 种 复制 被 称 为 浅 复制 。 


写 时 复制 的 核心 思想 是 ， 在 其 中 一 个 副本 被 修改 之 前 ， 一 个 对 象 的 两 个 副本 一 直 都 是 相同 
的 。 因 此 ， 直 到 其 中 一 个 实例 或 另外 一 个 实例 被 修改 ， 两 个 实例 能 够 共享 那些 指向 复制 开 
销 昂 贵 的 字段 的 指针 。 写 时 复制 首先 会 进行 一 次 “ 浅 复制 "， 然 后 将 深 复 制 推 迟 至 对 象 的 
某 个 元 素 发 生 改变 时 。 

在 现代 C++ 的 COW 的 实现 方式 中 ， 任 何 引用 动态 变量 的 类 成 员 都 是 用 如 std::shared_ 
ptr 这 样 的 具有 共享 所 有 权 的 智能 指针 实现 的 。 类 的 构造 函数 复制 具有 共享 所 有 权 的 指针 ， 
将 动态 变量 的 一 份 新 的 复制 的 创建 延迟 到 任何 一 份 复制 想 要 修改 该 动态 变量 于 


作用 于 类 上 的 任何 变 值 操 作 都 会 在 真正 改变 类 之 前 先 检查 共享 指针 的 引用 计数 。 引 用 计数 
值 大 于 1 表明 所 有 权 被 共享 了 ， 那 么 这 个 操作 会 为 对 象 创建 一 份 新 的 副本 ， 用 指向 新 副本 
的 共享 指针 交换 之 前 的 共享 指针 成 员 ， 并 释放 旧 的 副本 和 减 小 引用 计数 。 由 于 已 经 确保 了 
动态 变量 没有 被 共享 ， 现 在 可 以 进行 变 值 操作 了 。 

在 COW 类 中 使 用 std: :make_shared() 构建 动态 变量 是 非常 重要 的 。 否 则 ， 使 用 共享 指 

会 发 生 额 外 的 调用 内 存 管理 器 来 获取 引用 计数 对 象 的 开销 。 如 果 在 类 中 有 许多 动态 变量 ， 
那么 这 个 开销 与 简单 地 将 动态 变量 复制 到 新 的 存储 空间 中 并 赋值 给 一 个 ( 非 共 享 的 ) 智能 
上 针 的 开销 无 异 。 因 此 ， 除 非 要 复制 很 多 份 副 本 ,或 者 变 值 运算 符 通常 不 会 被 调用 ， 否 则 
COW 惯用 法 可 能 不 会 发 挥 什么 作用 。 


6.5.6 切割 数据 结构 


切割 〈slice) 是 一 种 编程 惯用 法 ， 它 指 的 是 一 个 变量 指向 另外 一 个 变量 的 一 部 分 。 例 如 ， 
C++17 中 推荐 的 string_view 类 型 就 指向 一 个 字符 串 的 子 字符 串 ， 它 包含 了 一 个 指向 子 字 
符 串 开始 位 置 的 char* 指针 以 及 到 子 字符 串 的 长 度 。 


被 切割 的 对 象 通常 都 是 小 的 、 容 易 复制 的 对 象 ， 将 其 内 容 复制 至 子 数 组 或 子 字符 串 中 而 分 












































































































































配 存储 空间 的 开销 不 大 。 如 果 被 分 割 的 数据 结构 为 被 共享 的 指针 所 有 ， 那 么 切割 是 完全 安 
全 的 。 但 是 经 验 告诉 我 ， 被 切割 的 对 象 的 生命 是 短暂 的 。 它 们 在 短暂 地 实现 了 存在 的 意义 
后 ， 就 会 在 被 切割 的 数据 结构 能 够 被 销毁 前 超出 它们 的 作用 域 。 例 如 ，string_view 使 用 
一 个 无 主 指针 指向 字符 串 。 


Fe = * 入 

6.6 ”实现 移动 语义 

就 性 能 优化 而 言 ，C++11 中 加 入 的 移动 语义 对 C++ 具有 非常 重要 的 意义 。 移 动 语 义 解决 了 

之 前 版 本 的 C++ 中 反复 出 现 的 问题 ， 例 子 如 下 。 

。 将 一 个 对 象 赋值 给 一 个 变量 时 ， 会 导致 其 内 部 的 内 容 被 复制 。 这 个 运行 时 开销 非常 大 。 
而 在 这 之 后 ， 原 来 的 对 象 立 即 被 销毁 了 。 复 制 的 努力 也 随 之 化 为 乌有 ， 因 为 本 来 可 以 复 
用 原来 对 象 的 内 容 的 。 

。 开发 人 员 和 希望 将 一 个 实体 (请 参见 6.1.3 节 )， 例 如 一 个 auto_ptr 或 是 资源 处 理 句 柄 ， 
赋值 给 一 个 变量 。 在 这 个 对 象 中 ， 赋 值 语 句 中 的 “复制 ”操作 是 未 定义 的 ， 因 为 这 个 对 
象 具有 唯一 的 识别 符 。 

以 上 这 两 种 情况 对 std: :vector 等 动态 容器 有 很 大 影响 ， 因 为 伴随 着 容器 中 元 素数 量 的 增 

加 ， 容 器 内 部 的 存储 空间 必须 被 重新 分 配 。 第 一 种 情况 会 导致 重新 分 配 容 器 的 开销 比 实际 

所 需 更 大 。 第 二 种 情况 则 会 导致 auto_ptr 等 实体 无 法 被 存储 在 容器 中 。 

问题 的 起 因 在 于 ， 复 制 构 造 函 数 和 赋值 运算 符 执行 的 复制 操作 对 于 基本 类 型 和 无 主 指针 没 

有 问题 ， 但 是 对 于 实体 则 没有 意义 。 拥 有 这 种 类 型 的 成 员 变 量 的 类 可 以 被 保存 在 C 风格 的 

数组 中 ， 但 是 无 法 被 保存 在 std: :vector 等 动态 容器 中 。 

在 C++11 之 前 ，C++ 没有 提供 任何 标准 方式 来 高 效 地 将 一 个 变量 的 内 容 移动 到 另 一 个 变量 

中 ， 无 法 避免 那些 不 应 当 发 生 的 复制 开销 。 


6.6.1 非 标准 复制 语义 : 痛苦 的 实现 

当 一 个 变量 表现 为 实体 时 ， 创 建 它 的 一 个 副本 通常 都 是 一 张 通 往 未 定义 行为 大 陆 的 单程 
票 。 较 好 的 做 法 是 对 这 类 变量 禁用 复制 构造 函数 和 赋值 运算 符 。 但 是 当 std: :vector 等 容 
器 重新 分 配 时 ， 又 需要 复制 其 中 所 容纳 的 对 象 ， 因 此 禁止 复制 意味 着 无 法 在 容器 中 使 用 这 
类 对 象 。 

对 于 在 移动 语义 出 现 之 前 ， 想 把 实体 放 进 标准 库容 器 的 绝望 的 设计 人 员 来 说 ， 一 种 解决 方 
法 是 以 非 标 准 的 形式 实现 赋值 。 例 如 ， 可 以 如 代码 清单 6-1 所 示 这 样 实现 一 种 智能 指针 。 


代码 清单 6-1 非 复 制 赋值 的 hacky 智能 指针 
hacky_ptr& hacky_ptr::operator=(hacky_ptr& rhs) { 
if (*this != rhs) { 
his->ptr_ = rhs.ptr_; 
rhs.ptr_ = nullptr; 
} 


return *this; 






































































































































} 
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这 个 赋值 运算 符 可 以 编译 通过 和 正常 运行 。q = p; 这 样 的 赋值 语句 会 将 指针 所 有 权 传 递 给 
q 并 将 p 中 的 指针 设置 为 nullptr。 这 个 定义 确保 了 所 有 权 。 以 这 种 方式 定义 的 指针 可 以 在 
std: :vector 中 工作 。 


尽管 赋值 运算 符 的 签名 中 给 出 了 一 个 微妙 的 提示 ， 告 诉 调用 方 rhs 被 修改 了 一 一 这 在 赋值 
运算 中 并 不 常见 一 一 但 从 赋值 运算 自身 上 看 不 出 它 的 行为 异常 (请 参见 代码 清单 6-2)。 
代码 清单 6-2 hacky_ptr 的 用 法 让 人 吃惊 


hacky_ptr p, q; 
p = new Foo; 
q= Pp; 






































p->foo_func(); // 令 人 吃惊 , 解 引 nuLLptr 


可 能 在 一 段 长 时 间 的 调试 后 ， 期 待 这 段 代 码 能 够 正常 工作 的 开发 新 手 会 失望 了 。 以 这 种 方 
式 来 贬低 “复制 ”的 意义 简直 是 代码 赴 梦 ， 甚 至 找 不 到 任何 使 用 它 的 必要 。 


6.6.2 std::swap(): “穷人 ”的 移动 语义 

在 两 个 变量 之 间 可 能 会 进行 的 另外 一 种 操作 是 “交换 ”一 一 互 换 两 个 变量 所 保存 的 内 容 。 
即使 当 两 个 变量 都 是 实体 时 ， 交 换 操 作 也 很 容易 定义 。 这 是 因为 在 操作 结束 后 ， 每 个 变量 
都 各 含有 一 个 实体 。C++ 提供 了 模板 函数 std: :swap() 来 交换 两 个 变量 的 内 容 : 


std: :vector<int> a(1000000,0); 























std::vector<int> b; // b 是 空 的 
std::swap(a,b); // 现在 bx 有 100 万 个 元 素 


在 移动 语义 出 现 之 前 ，std: :swap() 的 默认 实例 化 类 似 于 下 面 这 样 : 


template <typename T> void std::swap(T& a, T& b) { 
T tmp = a; // 为 a 创建 一 份 新 的 临时 副本 
a = b; // 将 b 复 制 到 a 中 ,放弃 3 以 前 的 值 
b = tmp; // 将 临时 副本 复制 到 b 中 ,放弃 b 以 前 的 值 





























} 


这 段 默认 的 实例 化 代码 仅 工 作 于 那些 已 经 定义 了 复制 操作 的 对 象 上 。 它 还 有 潜在 的 性 能 问 
题 : a 的 原始 值 被 复制 了 两 次 ， 而 b 的 原始 值 也 被 复制 了 一 次 。 如 果 类 型 T 包 含 了 动态 分 
配 内 存 的 成 员 变 量 ， 那 么 会 创建 三 个 它 的 副本 ， 其 中 两 个 会 被 销毁 。 这 上 比 概念 上 只 进行 一 
次 复制 和 一 次 销毁 的 复制 操作 更 加 昂贵 。 

交换 操作 的 强大 之 处 在 于 它 可 以 递归 地 应 用 于 类 的 成 员 变 量 上 。 交 换 并 不 会 复制 指针 所 指 
向 的 对 象 ， 而 是 交换 指针 自身 。 对 于 那些 指向 大 的 、 动 态 分 配 内 存 的 数据 结构 ， 交 换 比 复 
制 更 加 高 效 。 在 实践 中 ，std: :swap() 可 以 为 某 些 类 特 化 。 标 准 容器 提供 了 swap() 成 员 函 
数 来 交换 指向 它们 的 动态 成 员 变 量 的 指针 。 容 器 类 还 提供 了 特 化 的 std: :swap()， 可 以 在 
不 调用 内 存 管理 器 的 情况 下 高 效 地 进行 一 次 交换 。 用 户 定 义 类 型 也 同样 可 以 提供 特 化 版 的 
std: :swap()。 


std: :vector 的 定义 使 得 当 它 的 骨干 数组 增长 时 并 不 会 使 用 交换 来 复制 它 的 内 容 ， 但 是 我 






























































们 可 以 定义 另外 一 种 相似 的 数据 结构 来 实现 这 个 功能 。 

交换 的 问题 在 于 ， 尽 管 对 于 带 有 需要 次 复制 的 动态 变量 的 类 而 言 ， 交 换 比 复制 更 加 高 效 ， 
但 对 于 其 他 类 则 比较 低 效 。 “交换 ”至 少 对 于 有 主 指针 和 简单 类 型 还 是 有 意义 
的 ， 它 朝 着 正确 的 方向 迈进 了 一 步 。 


6.6.3 ”共享 所 有 权 的 实体 


实体 无 法 复制 。 不 过 ， 本 可 以 复制 。 因 此 ， 虽 然 在 移动 语义 出 现 之 
前 无 法 创建 std: :vector<std: :mutex> 等 ， 但 是 我 们 可 以 定义 一 个 std: :vector<std: :shared_ 
ptr<std: :mutex>>。 复 制 一 et 意义 重大 : 创建 一 个 额外 的 引用 指向 一 个 唯一 的 
对 象 。 


当然 ， 让 一 个 shared_ptr 指向 实体 也 是 一 种 方法 。 虽 然 这 种 方法 的 优点 是 使 用 了 C++ 标 
准 库 工 具 一 一 当然 ， 这 些 工 具 本 身 就 旨 在 供 开 发 者 使 用 的 一 一 但 是 它 充满 了 不 必要 的 复杂 
性 和 运行 时 开销 。 


6.6.4 ”移动 语义 的 移动 部 分 

标准 库 的 实现 人 员 认 识 到 ， 他 们 需要 将 “移动 ”操作 作为 C++ 的 基础 概念 。 移动 ”应 
当 负 责 处 理 所 有 权 的 转移 ， 它 需要 比 复制 更 加 高 效 ， 而 且 无 论 对 于 值 还 是 实体 都 应 当 有 
良好 的 定义 。 其 结果 就 是 移动 语义 的 诞生 。 这 里 ， 我 将 讲解 移动 语义 的 精华 部 分 ， 但 限 
于 篇 幅 ， 本 节 无 法 覆盖 许多 细节 。 我 强烈 建议 读者 阅读 Scott Meyers 的 Efjective Modern 
C++ 一 书 ， 这 本 书 的 42 节 中 有 10 节 都 在 讨论 移动 语义 。 读 者 还 可 以 在 互联 网 上 免费 学 
习 Thomas Becker 的 “C++ Rvalue References Explained” (http://thbecker.net/articles/rvalue 
references/section_01.html) ， 它 介绍 了 移动 语义 ， 但 读者 应 当 更 深入 地 理解 移动 语义 。 
为 了 实现 移动 语义 ，C++ 编译 器 需要 能 够 识别 一 个 变量 在 什么 时 候 只 是 临时 值 。 这 样 的 
实例 是 没有 名 字 的 。 例 如 ， 函 数 返 回 的 对 象 或 new 表达 式 的 结果 就 没有 名 字 。 不 可 能 会 有 
其 他 引用 指向 该 对 象 。 该 对 象 可 以 被 初始 化 、 赋 值 给 一 个 变量 或 是 作为 表达 式 或 函数 的 参 
数 。 但 是 接 下 来 它 会 立即 被 销毁 。 这 样 的 无 名 值 被 称 为 右 值 ， 因 为 它 与 赋值 语句 右 侧 的 表 
达 式 的 结果 类 似 。 相 反 ， 左 值 是 指 通 过 变量 命名 的 值 。 在 语句 y = 2*x + 1; 中 ， 表 达 式 
2*x + 1 的 结果 是 一 个 右 值 ， 它 是 一 个 没有 名 字 的 临时 值 。 等 号 左 侧 的 变量 是 一 个 左 值 ，y 
是 它 的 名 字 。 

当 一 个 对 象 是 右 值 时 ， 它 的 内 容 可 以 被 转换 为 左 值 。 所 需 做 的 就 是 保持 右 值 为 有 效 状态 ， 
这 样 它 的 析 构 函数 就 可 以 正常 工作 了 。 
C++ 的 类 型 系统 被 扩展 了 ， 它 能 够 从 函数 调用 上 的 左 值 中 识别 出 右 值 。 如 果 T 是 一 个 类 
型 ， 那 么 声明 T&& 就 是 指向 T 的 右 值 引用 一 一 也 就 是 说 ， 一 个 指向 类 型 T 的 右 值 的 引用 。 
函数 重 裁 的 解析 规则 也 被 扩展 了 ， 这 样 当 右 值 是 一 个 实 参 时 ， 优 先 右 值 引 用 重 载 ， 而 当 左 
值 是 实 参 时 ， 则 需要 左 值 引用 重 载 。 


特殊 成 员 函 数 的 列表 被 扩展 了 ， 现 在 它 包 含 了 移动 构造 函数 和 一 个 移动 赋值 运算 符 。 这 些 
函数 是 复制 构造 函数 和 赋值 运算 符 的 重 载 ， 它 们 接收 右 值 引 用 作为 参数 。 如 果 一 个 类 实现 
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了 移动 构造 函数 和 移动 赋值 运算 符 ， 那 么 在 进行 初始 化 或 是 赋值 实例 时 就 可 以 使 用 高 效 的 
移动 语义 。 

代码 清单 6-3 是 一 个 包含 唯一 实体 的 简单 的 类 。 编 译 器 会 为 这 个 类 自动 地 生成 移动 构造 国 
数 和 移动 赋值 运算 符 。 如 果 类 的 成 员 定 义 了 移动 操作 ， 这 些 移动 运算 符 就 会 对 这 些 成 员 进 
行 一 次 移动 操作 ， 如 果 没 有 ， 则 进行 一 次 复制 操作 。 这 等 同 于 对 每 个 类 成 员 都 执行 this- 
>member = std: :move(rhs.member ) 。 

代码 清单 6-3 ” 带 有 移动 语义 的 类 

class Foo { 


std: :uniqyue_ptr<int> value ; 
public: 

















Foo(Foo&& rhs) { 
value_ = rhs.release(); 


} 
Foo(Foo const& rhs) : value (nullptr) { 
if (rhs.value ) 
value_ = std::make_unique<int*>(*rhs.value ); 
} 
}; 

实际 上 ， 编 译 器 只 会 在 当 程序 没有 指定 复制 构造 函数 、 赋 值 运算 符 或 是 析 构 函 数 *， 而 且 父 
类 或 是 任何 类 成 员 都 没有 禁用 移动 运算 符 的 简单 情况 下 ， 才 会 自动 生成 移动 构造 函数 和 移 
动 赋值 运算 符 。 这 条 规则 是 有 意义 的 ， 因 为 这 些 特殊 的 函数 定义 的 出 现 上 暗示 可 能 需要 一 些 
特殊 的 东西 (而 不 是 “成 员 逐 一 移动 ”)。 


如 果 开 发 人 员 没 有 提供 或 是 编译 器 没有 自动 生成 移动 构造 函数 和 移动 赋值 运算 符 ， 程 序 仍 
然 可 以 编译 通过 。 这 时 候 ， 编 译 器 会 使 用 比较 低 效 的 复制 构造 函数 和 复制 赋值 运算 符 。 由 
于 自动 生成 的 规则 太 过 复杂 ， 因 此 最 好 显 式 地 声明 、 上 默认 声明 或 是 禁用 所 有 特殊 函数 ( 默 
认 构 造 函 数 、 复 制 构 造 函 数 、 复 制 赋值 运算 符 、 移 动 构造 函数 、 移 动 赋值 运算 符 和 析 构 函 
数 )， 这 样 可 以 让 开发 人 员 的 意图 更 清晰 。 


6.6.5 ”更 新 代码 以 使 用 移动 语义 

我 们 可 以 修改 各 个 类 来 让 现 有 的 代码 也 可 以 使 用 移动 语义 。 下 面 这 份 检 查 项 目 清单 有 助 于 

读者 进行 这 项 工作 。 

。 找 出 一 个 从 移动 语义 中 受益 的 问题 。 例 如 ， 在 复制 构造 函数 和 内 存 管理 函数 上 花费 了 
太 多 时 间 可 能 表明 ， 增 加 移动 构造 函数 或 移动 赋值 运算 符 可 能 会 使 那些 频繁 被 使 用 的 
类 受益 。 

。 升级 C++ 编译 器 (如 果 编 译 器 中 不 带 有 标准 库 ， 那 么 还 需要 升级 标准 库 ) 到 一 个 更 高 
级 的 支持 移动 语义 的 版 本 。 在 升级 后 要 重新 运行 性 能 测试 ， 因 为 改变 编译 器 可 能 会 显 赣 
地 改变 那些 使 用 了 字符 串 和 矢量 等 标准 库 组 件 的 代码 的 性 能 ， 导 致 热点 函数 排行 榜 也 随 
之 发 生变 化 。 

























































































注 3: 尽管 在 C++ll 中 已 经 不 主张 这 么 做 了 ,但 是 即使 定义 了 析 构 函数 ， 也 会 自动 生成 复制 构造 函数 和 赋 
值 运 算 符 。 最 佳 实践 是 如 果 确 实 不 应 当 定义 复制 构造 函数 和 赋值 运算 符 ， 那 么 应 当 显 式 地 删除 它们 。 

















。 检查 第 三 方 库 ， 查 看 是 否 有 新 的 支持 移动 语义 的 版 本 。 如 果 继续 使 用 那些 不 支持 移动 语 
义 的 库 ， 那 么 即使 编译 器 支持 移动 语义 ， 对 开发 人 员 也 不 会 任何 帮助 。 
。 当 碰 到 性 能 问题 时 ， 为 类 定义 移动 构造 函数 和 移动 赋值 运算 符 。 


6.6.6 ”移动 语义 的 微妙 之 处 

移动 语义 并 非 黑 科技 。 这 种 特性 太 重 要 了 ， 而 且 标 准 库 的 实现 人 员 确 实 做 得 很 棒 ， 让 它 在 
语义 上 与 复制 构造 函数 十 分 相似 。 但 是 我 认为 ， 可 以 说 移动 语义 是 非常 微妙 的 。 这 是 C++ 
中 必须 谨慎 使 用 的 特性 之 一 ， 如 果 你 对 它 足够 了 解 ， 你 的 程序 就 可 以 获得 极 大 的 性 能 提升 。 
1. 移动 实例 至 std: :vector 

如 果 你 希望 你 的 对 象 在 std: :vector 中 能 够 高 效 地 移动 ， 那 么 仅仅 编写 移动 构造 函数 
和 移动 赋值 运算 符 是 不 够 的 。 开 发 人 员 必 须 将 移动 构造 函数 和 移动 赋值 运算 符 声 明 为 
noexcept。 这 很 有 必要 ， 因 为 std: :vector 提供 了 强 异 常安 全 保证 (strong exception safety 
guarantee) : 当 一 个 vetcor 执行 某 个 操作 时 ， 如 果 发 生 了 异常 ， 那 么 该 vetcor 的 状态 会 S 
执行 操作 之 前 一 样 。 复 制 构 造 函 数 并 不 会 改变 源 对 象 。 移 动 构造 函数 则 会 销毁 它 。 任 何在 
移动 构造 函数 中 发 生 的 异常 都 会 与 强 异常 安全 保证 相 冲 突 。 

如 果 设 有 将 移动 构造 国 数 和 移动 赋值 运算 符 声 明 为 noexcept，std: :vector 会 使 用 比较 低 
效 的 复制 构造 函数 。 当 发 生 这 种 情况 时 ， 编 译 器 可 能 不 会 给 出 警告 ， 代 码 仍然 可 以 正常 运 
行 ， 不 过 会 变 慢 。 

noexcept 是 一 种 强 承诺 。 使 用 noexcept 意味 着 不 会 调用 内 存 管理 器 、LIO 或 是 其 他 任何 可 
能 会 抛 出 异常 的 函数 。 同 时 ， 它 也 意味 着 必须 忍受 所 有 异常 ， 因 为 没有 任何 办 法 报告 在 程 
序 中 发 生 了 异常 。 在 Windows 上 ， 这 意味 着 将 结构 化 异常 转换 为 C++ 异常 充满 了 和 危险， 
因为 打破 了 noexcept 的 承诺 意味 着 程序 会 突然 且 不 可 撤销 地 终止 。 但 是 ， 这 是 高 效 要 付出 
的 代价 。 

2. 右 值 引 用 参数 是 左 值 

当 一 个 函数 接收 一 个 右 值 引用 作为 参数 时 ， 它 会 使 用 右 值 引用 来 构建 形 参 。 因 为 形 参 是 有 
名 字 的 ， 所 以 尽管 它 构建 于 一 个 右 值 引用 ， 它 仍然 是 一 个 左 值 。 

幸运 的 是 ， 开 发 人 员 可 以 显 式 地 将 左 值 转 换 为 右 值 引用 。 如 代码 清单 6-4 所 示 ， 标 准 库 提 
供 了 漂亮 的 <utility> 中 的 模板 函数 std: :move() 来 完成 这 项 任务 。 


代码 清单 6-4” 显 式 地 移动 
std::string MoveExample(std::string&& s) { 
std::string tmp(std::move(s)); 
// 注意 ! 现在 s 是 空 的 
return tmp; 
} 








































































































std::string si1 = "hello"; 
std::string s2 = "everyone"; 
std::string s3 = MoveExample(s1 + s2); 


在 代码 清单 6-4 中 ， 调 用 MoveExample(s1 + s2) 会 导致 通过 右 
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直 引用 构建 s， 这 意味 着 实 参 




















优化 动态 分 配 内 存 的 变量 | 111 


被 移动 到 了 s 中 。 调 用 std: :move(s) 会 创建 一 个 指向 s 的 内 容 的 右 值 引用 。 由 于 右 值 引用 
是 std::move() 的 返回 值 ， 因 此 它 没 有 名 字 。 右 值 引 用 会 初始 化 tmp， 调 用 std: :string 的 移 
动 构造 函数 。 此 时 ，s 已 经 不 再 指向 MoveExample() 的 实 参 字符 串 。 它 可 能 是 一 个 空 字符 串 。 
当 返 回 tmp 的 时 候 ， 从 概念 上 讲 ，tmp 的 值 会 被 复制 到 匿名 返回 值 中 ， 接 着 tmp 会 被 删除 。 
MoveExample() 的 匿名 返回 值 会 被 复制 构造 到 s3 中 。 不 过 ， 实 际 上 ， 在 这 种 情况 下 编译 器 能 
够 进行 RVO， 这 样 参数 s 会 被 直接 移动 到 s3 的 存储 空间 中 。 通 常 ，RVO 比 移动 更 高 效 。 
下 面 是 一 个 使 用 了 std: :move() 的 移动 语义 版 本 的 std: :swap() : 


template <typename T> void std::swap(T& a，T& b) { 
{ 

T tmp(std: :move(a)); 

a = std::move(b); 

b = std::move(tmp); 


3 
只 要 TT 实现 了 移动 语义 ， 这 个 函数 就 会 执行 三 次 移动 ， 且 不 会 进 重新 分 配 。 否 则 ， 它 会 进 
行 复制 构造 。 
3. 不 要 返回 右 值 引用 
移动 语义 的 另外 一 个 微妙 之 处 在 于 不 应 当 定义 函数 返回 右 值 引 用 。 直 觉 上 ， 返 回 右 值 引用 
是 合理 的 。 在 像 x = foo(y) 这 样 的 函数 调用 中 ， 返 回 右 值 引用 会 高 效 地 将 返回 值 从 未 命名 
的 临时 变量 中 复制 到 赋值 目标 x 中。 
但 是 实际 上 ， 返 回 右 值 引 用 会 妨碍 返回 值 优化 (请 参见 6.5.3 市 )， 即 允许 编译 器 向 函数 传递 
一 个 指向 目标 的 引用 作为 隐藏 参数 ， 来 移 除 从 未 命名 的 临时 变量 到 目标 的 复制 。 返 回 右 值 引 
用 会 执行 两 次 移动 操作 ， 而 一 旦 使 用 了 返回 值 优化 ， 返 回 一 个 值 则 只 会 执行 一 次 移动 操作 。 
因此 ， 只 要 可 以 使 用 RVO， 无 论 是 返回 语句 中 的 实 参 还 是 函数 的 返回 类 型 ， 都 不 应 当 使 用 
右 值 引用 。 
4. 移动 父 类 和 类 成 员 
正如 代码 清单 6-5 所 示 ， 要 想 为 一 个 类 实现 移动 语义 ， 你 必须 为 所 有 的 父 类 和 类 成 员 也 实 
现 移动 语义 。 否 则 ， 父 类 和 类 成 员 将 会 被 复制 ， 而 不 会 被 移动 。 


代码 清单 6-5 ”移动 父 类 和 类 成 员 
class Base {...}; 
class Derived : Base { 














































































































std: :uniqye_ptr<Foo> member_; 
Bar* barmember_; 


}; 


Derived: :Derived(Derived&8& rhs) 
: Basel(std::move(rhs)), 
member_(std::move(rhs.member_)),， 
barmember_(nullptr) { 


std: :swap(this->barmember_, rhs.barmember_ ); 
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代码 清单 6-5 展示 了 一 个 编写 移动 构造 国 数 的 微妙 之 处 。 假 设 Base 有 移动 构造 函数 ， 那 么 
它 只 有 在 通过 调用 std: :move() 将 左 值 rhs 转换 为 右 值 引用 后 才 会 被 调用 。 同 样 ， 只 有 当 
rhs.member_ 被 转换 为 右 值 引 用 后 才 会 调用 std: :unique_ptr 的 移动 构造 函数 。 而 对 于 普通 
指针 barmember_ 或 其 他 任何 没有 定义 移动 构造 函数 的 对 和 象 ，std: :swap() 实现 了 一 个 类 似 
移动 的 操作 。 


在 实现 移动 赋值 运算 符 时 ，std: :swap() 可 能 会 引起 麻烦 。 麻 烦 在 于 this 可 能 会 指向 一 个 
已 经 分 配 了 内 存 的 对 象 。std: :swap() 不 会 销毁 那些 不 再 需要 的 内 存 。 它 会 将 它们 保存 在 
rhs 中 ， 直 至 rhs 被 销毁 前 这 块 内 存 都 无 法 被 重新 利用 。 如 果 在 一 个 类 成 员 中 有 一 个 含有 
100 万 个 字符 的 字符 串 或 是 包含 一 张 100 万 个 元 素 的 表 ， 这 可 能 会 是 一 个 潜在 的 大 问题 。 
在 这 种 情况 下 ， 最 好 先 显 式 地 复制 barmember_ 指针 ， 然 后 在 rhs 中 删除 它 ， 以 防止 rhs 的 
析 构 函数 删除 释放 它 : 
void Derived::operator=(Derived&& rhs) { 

Base: :operator=(std: :move(rhs)); 

delete(this->barmember_ ); 


this->barmember_ = rhs.barmember ; 
rhs.barmember_ = nullptr; 



























































} 


6.7 扁平 数据 结构 


当 一 个 数据 结构 中 的 元 素 被 存储 在 连续 的 存储 空间 中 时 ， 我 们 称 这 个 数据 结构 为 扁平 的 。 
相 比 于 通过 指针 链接 在 一 起 的 数据 结构 ， 扁 平 数 据 结构 具有 显著 的 性 能 优势 。 


。 相 比 于 通过 指针 链接 在 一 起 的 数据 结构 ， 创 建 遍 平 数据 结构 实例 时 调用 内 存 管理 器 的 
开销 更 小 。 有 些 数 据 结 构 (如 List、deque、map、unordered_map) 会 创建 许多 动态 变量 ， 
而 其 他 数据 结构 (如 vector) 则 较 少 。 正 如 将 在 第 10 章 反 复 看 到 的 ， 即 使 是 相似 的 
操作 具有 相同 的 大 O 性 能 开销 ，std: :vector 和 std: :array 等 局 平 数据 结构 也 有 很 大 
的 优势 。 

。 std::array 和 std::vector 等 扁平 数据 结构 所 需 的 内 存 比 list、map、unordered_map 等 

基于 节点 的 数据 结构 少 ， 因 为 在 基于 节点 的 数据 结构 中 存在 着 链接 指针 的 开销 。 即 使 所 
消耗 的 总 字 节 数 没 有 问题 ， 紧 凑 的 数据 结构 仍然 有 助 于 改善 缓存 局 部 性 。 局 平 数据 结构 
在 局 部 缓存 性 上 的 优势 使 得 它们 更 加 高 效 。 

。 以 前 常常 需要 用 到 的 技巧 ,诸如 用 智能 指针 组 成 vector 或 是 map 来 存储 不 可 复制 的 对 象 ， 
在 C++ll 中 的 移动 语义 出 现 后 已 经 不 再 需要 了 。 移 动 语 义 移 除了 在 分 配 智能 指针 和 它 
所 指向 的 对 象 的 存储 空间 时 产生 的 显著 的 运行 时 开销 。 


6.8 小结 


。 在 C++ 程序 中 ， 乱 用 动态 分 配 内 存 的 变量 是 最 大 的 “性 能 杀手 ”。 当 发 生性 能 问题 时 ， 
new 不 再 是 你 的 朋友 。 

。 只 要 知道 了 如 何 减少 对 内 存 管理 器 的 调用 ， 开 发 人 员 就 能 够 成 为 一 个 高 效 的 性 能 优化 
专家 。 
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。 通过 提供 : :operator new() 运算 符 和 : :operator delete() 运算 符 ， 可 以 整体 地 改变 程 
序 分 配 内 存 的 方式 。 

。 通过 禁 换 malloc() 和 free() 可 以 整体 地 改变 程序 管理 内 存 的 方式 。 

。 智能 指针 实现 了 动态 变量 所 有 权 的 自动 化 。 

。 共享 了 所 有 权 的 动态 变量 更 加 昂贵 。 

态 地 创建 类 实例 。 

态 地 创建 类 成 员 并 且 在 有 必要 时 采用 两 段 初始 化 。 

。 让 主 指针 来 拥有 动态 变量 ， 使 用 无 主 指针 替代 共享 所 有 权 。 

写 通 过 输出 参数 返回 值 的 免 复制 函数 。 

。 实现 移动 语义 。 

。 局 平 数据 结构 更 好 。 























洲 怕 








小 
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优化 热点 语句 





创意 就 在 那里 ， 它 被 锁 在 了 里 面 ， 我 所 要 做 的 就 是 移 除 多 余 的 石头 。 
一 一 米 开朗 基 罗 。 博 那 罗 蒂 (1475 一 1564) 在 面 对 
“您 如 何 创 作 杰 作 ” 的 提问 时 如 是 回答 


语句 级 别 的 优化 可 以 被 模式 化 为 从 执行 流 中 移 除 指令 的 过 程 ， 这 与 米 开 朗 基 罗 雕刻 其 杰作 
的 过 程 相似 。 米 开朗 基 罗 所 给 出 的 建议 的 问题 在 于 ， 并 没有 指出 石头 中 的 哪 部 分 是 多 余 
的 ， 哪 部 分 是 杰作 。 


语句 级 别 的 性 能 优化 的 问题 在 于 ， 除 了 函数 调用 外 ， 没 有 哪 条 C++ 语句 会 消耗 许多 条 机 器 
引 令 。 通 常 ， 集 中 精力 在 这 些微 小 的 性 能 点 上 是 无 法 获得 与 开发 人 员 所 付出 的 努力 相应 的 
性 能 回报 的 ， 除 非 开 发 人 员 找 到 了 放大 这 些 语句 的 开销 、 使 得 它们 成 为 值得 优化 的 热点 代 
码 的 因素 。 这 些 因素 包括 以 下 几 个 。 
循环 
循环 中 的 语句 开销 是 语句 各 自 的 开销 乘 以 它们 被 重复 执行 的 次 数 。 热 点 循环 必须 由 开发 
人 员 自 己 找 出 来 。 分 析 器 可 以 指出 包含 热点 循环 的 函数 ， 但 它 不 会 指出 函数 中 的 哪个 循 
环 是 热点 循环 ， 它 还 可 能 会 因为 某 个 函数 被 一 个 或 多 个 循环 调用 而 指出 该 函数 ， 但 它 也 
` 会 指出 具体 哪个 循环 是 热点 循环 。 既 然 分 析 器 无 法 直接 指出 热点 循环 ， 开 发 人 员 就 必 
须 以 分 析 器 的 输出 结果 作为 线索 ， 检 查 代码 并 找 出 热点 循环 。 









































频繁 被 调用 的 函数 
国 数 的 开销 是 函数 自身 的 开销 乘 以 它 被 执行 的 次 数 。 分 析 器 可 以 直接 指出 热点 了 国 数 。 
贯穿 整个 程序 的 惯用 法 


这 是 一 个 与 C++ 语句 和 惯用 法 有 关 的 总 类 别 。 在 这 个 类 别 中 ， 存 在 着 性 能 开销 更 小 的 
选项 。 如 果 在 程序 中 广泛 地 使 用 了 这 些 惯用 法 ， 那 么 将 它 替换 为 性 能 开销 更 小 的 惯用 法 
可 以 提升 程序 的 整体 性 能 。 
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在 语句 级 别 优化 代码 能 够 显著 地 改善 戏 入 在 各 种 工具 、 装 置 、 外 设 和 玩具 中 的 简单 的 小 型 
处 理 器 的 性 能 ， 因 为 在 这 类 处 理 器 上 ， 指 令 是 直接 从 内 存 中 被 获取 ， 然 后 一 条 一 条 被 执行 
的 。 不 过 ， 由 于 桌面 级 和 手持 设备 的 处 理 器 提供 了 指令 级 的 并 发 和 缓存 ， 因 此 语句 级 别 的 
优化 带 来 的 回报 比 优化 内 存 分 配 和 复制 要 小 。 

在 为 桌面 级 计算 机 设计 的 程序 中 ， 应 当 只 对 那些 会 被 频繁 调用 的 库 函 数 或 是 程序 中 最 底层 
的 循环 ， 如 占用 最 多 运行 时 间 的 图 形 引擎 或 编程 语言 解释 器 ， 进 行 语句 级 别 的 优化 。 

语句 级 别 的 性 能 优化 还 有 一 个 问题 : 优化 效果 取决 于 编译 器 。 对 于 如 何 为 一 条 特定 的 C++ 
语句 生成 代码 ， 每 种 编译 器 都 会 有 一 个 或 多 个 方案 。 适 用 于 某 个 编译 器 的 编程 惯用 法 可 能 
在 另外 一 个 编译 器 上 毫 无 效果 ， 其 至 反而 会 降低 性 能 。 当 在 使 用 GCC 时 可 以 改善 性 能 的 
技巧 可 能 无 法 适用 于 Visual Ct++。 更 关键 的 是 ， 这 意味 着 当 团 队 升 级 了 编译 器 版 本 后 ， 新 
的 编译 器 可 能 会 降低 他 们 精心 优化 后 的 代码 的 速度 。 这 是 语句 级 别 的 优化 可 能 比 其 他 性 能 
优化 手段 效果 更 差 的 另 一 个 原因 。 


7.1 从 循环 中 移 除 代码 


一 个 循环 是 由 两 部 分 组 成 的 : 一 段 被 重复 执行 的 控制 语句 和 一 个 确定 需要 进行 多 少 次 特 
环 的 控制 分 支 。 通 常情 况 下 ， 移 除 C++ 语句 中 的 计算 指 的 是 移 除 循环 中 的 控制 语句 的 计 
算 。 不 过 在 循环 中 ， 控 制 分 支 也 有 额外 的 优化 机 会 ， 因 为 从 某 种 意义 上 说 ， 它 产生 了 额 
外 的 开销 。 

请 考虑 代码 清单 7-1 中 的 for 循环 ， 它 会 遍历 一 个 字符 串 ， 找 出 空格 并 用 星 号 替换 之 。 


代码 清单 7-1 未 优化 的 for 循环 


char s[] = "This string has many space (0x20) chars. " 



































































































































for (size t i = 0; i < strlen(s); ++i) 
if Cs[t] se 
s[i] = '*"; 


这 段 代 码 对 字符 串 中 的 每 个 字符 都 会 判断 循环 条 件 1 < strten(s) 是 否 成 立 '"。 调 用 
strlen() 的 开销 是 昂贵 的 ， 遍 历 参 数字 符 串 对 它 的 字符 计数 使 得 这 个 算法 的 开销 从 O(n) 
变 为 了 O(n)。 这 是 一 个 在 库 函 数 中 隐藏 了 循环 (请 参见 3.5.2 节 ) 的 典型 例子 。 

在 Visual Studio 2010 上 ， 这 个 循环 进行 1000 万 次 迭代 耗 时 13 238 毫秒， 而 在 Visual 
Studio 2015 上 则 耗 时 11 467 毫秒 。VS2015 的 测量 速度 比 VS2010 提高 了 15%， 这 表明 两 
个 编译 器 对 这 个 循环 生成 的 代码 有 所 不 同 。 

















注 1: 有 些 读 者 会 感到 吃惊 :“ 哇 ! 为 什么 有 人 写 出 这 样 的 代码 呢 ? 难道 他 们 不 知道 std: :string 有 一 个 常量 
时 间 开 销 的 length() 国 数 吗 ? ”不 过 这 类 代码 通常 都 会 出 现在 那些 需要 优化 的 程序 中 。 我 也 希望 使 
用 更 加 典型 的 示例 ， 因 为 我 要 证 明 这 一 点 。 
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7.1.1 缓存 循环 结束 条 件 值 
我 们 可 以 通过 在 进入 循环 时 预计 算 并 缓存 循环 结束 条 件 值 ， 即 调用 开销 昂贵 的 strten() 的 
返回 值 ， 来 提高 程序 性 能 。 修 改 后 的 循环 如 代码 清单 7.2 所 示 。 


代码 清单 7-2 缓存 了 循环 结束 条 件 值 的 for 循环 
for (size t i = 0, len = strlen(s); i < len; ++i) 
if (s[i] = ' ') 
s[i] = '*'; 
由 于 strtlen() 的 开销 实在 是 太 大 了 ， 因 此 修改 后 的 效果 非常 明显 。 对 修改 后 的 代码 进行 性 
能 测试 的 结果 是 ， 在 VS2010 上 耗 时 636 毫秒 ， 而 在 VS2015 上 则 耗 时 541 毫秒 一 一 比 初 
始 版 本 快 了 大 约 20 倍 。VS2015 仍然 比 VS2010 快 ， 这 次 快 了 17%。 


7.1.2 ”使 用 更 高 效 的 循环 语句 
以 下 是 C++ 中 for 循环 语句 的 声明 语法 : 
for (初始 化 表达 式 ; 循环 条 件 ; 继续 表达 式 ) 语句 
粗略 地 讲 ，for 循环 会 被 编译 为 如 下 代码 : 
初始 化 表达 式 ; 
L1: if ( ! 循环 条 件 ) goto L2; 
语句 ; 
goto L1; 
L2 : 


for 循环 必须 执行 两 次 jump 指令 : 一 次 是 当 循环 条 件 为 false 时 ， 另 一 次 则 是 在 计算 了 继 

续 表 达 式 之 后 。 这 些 jump 指令 可 能 会 降低 执行 速度 。C++ 还 有 一 种 使 用 不 那么 广泛 的 、 

称 为 do 的 更 简单 的 循环 形式 ， 它 的 声明 语法 如 下 : 
do 语句 while ( 循环 条 件 ) ; 

粗略 地 讲 ，do 循环 会 被 编译 为 如 下 代码 : 


L1: 控制 语句 
if ( 循环 条 件 ) goto L1; 


因此 ， 将 一 个 for 循环 简化 为 do 循环 通常 可 以 提高 循环 处 理 的 速度 。 代 码 清单 7-3 是 一 个 
将 遍历 字符 串 的 for 循环 代码 转换 为 do 循环 的 例子 。 


代码 清单 7-3 for 循环 被 转换 为 do 循环 
size t i = 0，Len = strlen(s); // for 循 环 初始 化 表达 式 





























元 

















do { 
if (s[i] = ' ) 
sli]=" ; 
++i; // for 人 循环 继续 表达 式 
} while (i < len); // for 循环 条 件 
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对 修改 后 的 代码 进行 测试 的 结果 是 ， 在 Visual Studio 2010 上 耗 时 482 毫秒 ， 性 能 提高 了 
12%; 不 过 在 Visual Studio 2015 上 却 耗 时 674 毫秒 ， 性 能 降低 了 25%。 


7.1.3 用 递减 替代 递增 

缓存 循环 结束 条 件 的 另 一 种 方法 是 用 递减 替代 递增 ， 将 循环 结束 条 件 缓存 在 循环 索引 变量 
中 。 许 多 循环 都 有 一 种 结束 条 件 判断 起 来 比 其 他 结束 条 件 更 高 效 。 例 如 ， 在 代码 清单 7-3 
的 循环 中 ， 一 种 结束 条 件 是 常量 0， 而 另外 一 种 则 是 调用 开销 昂贵 的 strlen() 函数 。 代 码 
清单 7-4 将 代码 清单 7-1 中 的 循环 重新 组 织 ， 用 递减 替代 了 递增 。 


代码 清单 7-4 ”对 循环 进行 递减 优化 
for (int i = (int)strlen(s)-1; i >= 0; --i) 
if (s[i] == ' ') 
SS = "3 

请 注意 ， 我 将 归纳 变量 i 的 类 型 从 无 符号 的 size_t 变 为 了 有 符号 的 int。for 循环 的 结束 
条 件 是 i >= 96。 如 果 并 是 无 符号 的 ， 从 定义 上 说 ， 它 总 是 大 于 或 等 于 0， 那 么 循环 就 永远 
无 法 结束 。 在 采用 递减 方式 时 ， 这 是 一 个 非常 典型 的 错误 。 
我 对 这 个 函数 进行 了 相同 的 性 能 测试 ， 结 果 是 在 Visual Studio 2010 上 的 运行 时 间 是 619 毫 
秒 ， 而 在 Visual Studio 2015 上 的 运行 时 间 则 是 571 毫秒 。 与 代码 清单 7-2 中 的 代码 相 比 ， 
我 们 无 法 确定 这 个 结果 是 否 表 示 有 显著 的 性 能 提升 。 


7.1.4 从 循环 中 移 除 不 变性 代码 

在 代码 清单 7-2 中 ， 结 束 条 件 被 缓存 起 来 供 复 用 ， 这 样 更 加 高 效 。 它 是 将 具有 不 变性 的 代 
码 移动 至 循环 外 部 这 个 通用 技巧 的 一 个 典型 例子 。 当 代码 不 依赖 于 循环 的 归纳 变量 时 ， 它 
就 具有 循环 不 变性 。 例 如 ， 在 我 故意 编写 的 代码 清单 7-5 的 循环 中 ， 赋 值 语句 j = 199; 以 
及 子 表达 式 j * x * x 就 具有 循环 不 变性 。 

代码 清单 7-5 含有 循环 不 变性 代码 的 循环 


int i,j,x,a[10]; 











































































































for (i=0; i<10; ++i) { 
j = 100; 
afi] =i+j*x* x; 


我 们 可 以 如 代码 清单 7-6 那样 重 写 这 段 代 码 。 
代码 清单 7-6 ”将 循环 不 变性 代码 移动 至 循环 外 


int i,j,x,a[10]; 





j = 100; 

int tmp = j *x* x; 

for (i=0; i<10; ++i) { 
a[lil] = i + tmp; 


} 
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现代 编译 器 非常 善于 找 出 在 循环 中 被 重复 计算 的 具有 循环 不 变性 的 代码 (如 同 这 里 介绍 
的 )， 然 后 将 计算 移动 至 循环 外 部 来 改善 程序 性 能 。 开 发 人 员 通 常 没 有 必要 重 写 这 段 代 码 ， 
因为 编译 器 已 经 奉 我 们 找 出 了 具有 循环 不 变性 的 代码 并 重 写 了 循环 。 

当 在 循环 中 有 语句 调用 了 函数 时 ， 编 译 器 可 能 无 法 确定 函数 的 返回 值 是 否 依 赖 于 循环 中 的 
茶 些 变量 。 被 调用 的 函数 可 能 很 复杂 ， 或 是 函数 体 包含 在 另外 一 个 编译 器 看 不 到 的 编译 单 
元 中 。 这 时 ， 开 发 人 员 必 须 自 己 找 出 具有 循环 不 变性 的 函数 调用 并 将 它们 从 循环 中 移 除 。 


7.1.5 ”从 循环 中 移 除 无 谓 的 函数 调用 


一 次 函数 调用 可 能 会 执行 大 量 的 指令 。 如 果 函 数 具 有 循环 不 变性 (loop-invariant) ， 那 么 将 
它 移 除 到 循环 外 有 助 于 改善 性 能 。 在 代码 清单 7-1 中 ，strlen() 具有 循环 不 变性 ， 因 此 可 
以 将 它 到 移动 到 循环 外 部 : 


char* s = "sample data with spaces"; 



































for C2e 寺 i = 0; i < strlen(s); ++i) 
rat 
s[i] = * 3 // 将 '' 改 为 '*' 
代码 清单 7-7 展示 了 修改 后 的 循环 的 模样 。 
代码 清单 7-7 循环 中 的 strlen() 具有 循环 不 变性 


char* s = "sample data with spaces"; 








SEE ed = strlen(s); 
for (size t i = 0; i < end; ++i) 
Uf (SLT] sr 
s[i] = '*'; // 将 '' 改 为 '*' 
在 代码 清单 7-8 中 ，strlen() 返回 的 值 不 具有 循环 不 变性 ， 因 为 移 除 一 个 空格 字符 会 缩短 
字符 串 的 长 度 。 因 此 ，end 条 件 不 能 被 移动 到 循环 外 部 。 


代码 清单 7-8 ”strlen() 不 具有 循环 不 变性 的 循环 


char* s = "sample data with spaces"; 
size t i; 











for (i = 0; i < strlen(s); ++i) 


if (s[i] == ' ') 
strcpy(&s[i]，&s[i+1]); // 移 除 空格 
s[li] = '\0'; 


没有 一 个 简单 的 规则 可 以 确定 在 某 种 情况 下 一 个 函数 是 否 具 有 循环 不 变性 。 代 码 清单 7-8 
向 我 们 展示 了 一 个 函数 在 某 个 循环 中 具有 循环 不 变性 ， 但 在 另外 一 个 循环 中 却 不 具有 循环 
不 变性 的 情况 。 在 这 种 情况 下 ， 相 比 于 编译 器 彻底 但 有 限 的 分 析 能 力 ， 开 发 人 员 的 判断 更 
加 有 效 (重复 调用 strlen() 并 非 是 这 个 函数 唯一 的 降低 性 能 的 问题 。 作 为 练习 ， 剩 下 的 问 
题 请 读者 自己 找 出 来 )。 


有 一 种 函数 永远 都 可 以 被 移动 到 循环 外 部 ， 那 就 是 返回 值 只 依赖 于 函数 参数 而 且 没 有 副 作 





























优化 热点 语句 | 119 








用 的 纯 函 数 (pure function)。 如 果 在 循环 出 现 了 这 种 函数 ， 而 且 在 循环 中 不 会 改变 它 的 参 
数 ， 那 么 这 个 函数 就 具有 循环 不 变性 ， 可 以 将 其 移动 到 循环 外 。 在 代码 清单 7-8 中 ， 函 数 
strlen() 就 是 一 个 纯 函数 。 在 第 一 个 循环 中 永远 不 会 改变 它 的 参数 s， 因 此 ， 对 strlen() 
的 调用 具有 循环 不 变性 ， 而 在 第 二 个 循环 中 ， 对 strcpy() 的 调用 改变 了 s， 因 此 ， 对 
strlen() 的 调用 不 具有 循环 不 变性 。 


下 面 是 涉及 数学 函数 sin() 和 cos() 的 另外 一 个 例子 ， 这 两 个 函数 的 返回 值 分 别 是 以 弧度 
表示 的 正弦 值 和 余弦 值 。 许 多 数学 函数 都 是 纯 函数 ， 因 此 ， 这 种 情况 经 常 发 生 在 数学 计算 
中 。 代 码 清 单 7-9 中 的 函数 会 对 一 副 有 16 个 顶点 的 图 形 进行 图 像 旋转 变换 。 这 个 变化 的 
性 能 测试 结果 在 VS2010 上 执行 100 万 次 耗 时 7502 毫秒 ， 在 VS2015 上 执行 100 万 次 耗 时 
6864 上 毫秒， 后 者 相 比 前 者 有 15% 的 性 能 优势 。 


代码 清单 7-9 ”包含 有 具有 循环 不 变性 的 纯 函数 的 rotate() 
void rotate(std::vector<Point>& v, double theta) { 
for (size t i = 0; i < Vv.size(); ++i) { 
double x = v[i].x_, y = v[il].y_; 
v[i].x_ = cos(theta)*x - sin(theta)*y; 
v[i].y_ = sin(theta)*x + cos(theta)*y; 




















} 
} 


函数 sin(theta) 和 cos(theta) 只 依赖 于 函数 参数 theta， 并 不 依赖 于 循环 变量 。 如 代码 清 
单 7-10 所 示 ， 我 们 可 以 将 它们 移动 到 循环 外 部 。 


代码 清单 7-10 将 具有 循环 不 变性 的 纯 函 数 移动 到 循环 外 部 后 的 rotate_invariant() 


void rotate invariant(std::vector<Point>& v, double theta) { 
double sin theta = sin(theta); 
double cos_theta = cos(theta); 
for (size t i = 0; i < Vv.size(); ++i) { 
double x = v[i].x_, y = Vv[i].y ; 
v[i].x_ = cos_theta*x - sin_theta*y; 
v[i].y_ = sin theta*x + cos_theta*y; 








} 


对 修改 后 的 函数 进行 测试 的 结果 是 性 能 大 约 提 高 了 3%， 分 别 达到 7382 毫秒 (VS2010) 和 
6620 毫秒 (VS2015)。 


在 PC 上 ， 相 比 于 上 一 节 中 将 strlen() 移动 到 循环 外 部 的 性 能 改善 效果 ， 这 里 的 性 能 提升 
并 不 明显 ， 因 为 数学 函数 通常 只 会 对 保存 在 寄存 器 中 的 一 两 个 数字 进行 运算 ， 而 且 不 会 像 
strlen() 一 样 访问 内 存 。 如 果 是 在 20 世纪 90 年 代 的 老式 PC 或 不 具有 浮 点 指令 的 徐 入 式 
处 理 器 上 ， 这 种 性 能 提升 可 能 会 更 加 明显 ， 因 为 正弦 和 余弦 的 计算 开销 更 大 。 


有 时 候 ， 在 循环 中 调用 的 函数 根本 就 不 会 工作 或 者 只 是 进行 一 些 无 谓 的 工作 。 我 们 当然 可 
以 移 除 这 些 函 数 。 可 能 会 有 读者 认为 “不 过 ， 称 职 的 开发 人 员 不 会 调用 一 个 进行 无 谓 工 作 
的 函数 "。 但 是 ， 要 想 在 一 个 项 目 长 达 数 年 的 生命 周期 中 记 住 所 有 调用 了 该 函数 的 地 方 ， 
并 在 每 次 函数 被 修改 后 都 检查 该 函数 的 所 有 调用 ， 是 非常 困难 的 。 





























下 面 这 段 伪 代码 是 我 在 整个 职业 生涯 中 反复 使 用 的 编程 惯用 法 : 


UsefulTool subsystenm; 
InputHandler input_getter; 

















while (input_getter.more work_available()) { 
subsystem.initialize(); 
subsystem.process work(input_ getter .get work()); 


在 这 个 模式 中 ， 程 序 会 不 断 地 初始 化 subsystem， 然 后 要 求 其 进行 下 一 项 工作 。 这 段 代码 
中 可 能 存在 一 个 只 有 通过 检查 UsefutTool: :initialize() 才能 确定 是 否 确实 存在 的 问题 。 
程序 可 能 只 是 在 执行 第 一 项 工作 前 需要 调用 initialize(), 或 是 只 是 在 执行 第 一 项 工作 前 
以 及 在 处 理 出 错 后 需要 调用 initialize()。 通 常 ，process_work() 会 在 退出 initialize() 
建立 的 类 不 变性 时 建立 相同 的 类 不 变性 。 在 每 次 循环 中 都 调用 initialize() 只 是 在 重复 执 
行 与 process_work() 相同 的 代码 。 如 果 是 这 样 的 话 ， 可 以 如 下 这 样 将 initialize() 移动 到 
循环 外 部 : 

UsefulTool subsystenm; 

InputHandler input_getter; 
































subsystem.initialize(); 
while (input_getter.more work_available()) { 
subsystem.process work(input _ getter .get work()); 


} 


责备 开发 人 员 草 率 地 编写 代码 有 些 自 以 为 是 。 有 时候，initialize() 的 行为 会 发 生变 化 ， 
其 中 的 部 分 代码 可 能 会 被 移动 至 process_work() 中 。 有 时 候 ， 项 目 中 会 缺少 项 目 文档 或 者 
项 目 计 划 很 紧张 ， 抑 或 是 initialize() 的 目的 不 够 明确 ， 而 开发 人 员 只 是 保守 地 编写 了 代 
码 。 但 是 我 确实 多 次 碰 到 过 明明 只 需要 进行 一 次 初始 化 ， 却 在 每 次 进行 一 项 工作 前 都 初始 
化 的 情况 。 


如 有 果 迫 切 地 需要 缩短 程序 执行 时 间 ， 那 么 就 值得 检查 循环 中 的 每 处 函数 调用 ， 看 看 是 否 真 
的 需要 它们 。 


7.1.6 ”从 循环 中 移 除 隐 含 的 函数 调用 

普通 的 函数 调用 很 容易 识别 ， 它 们 有 函数 名 ， 在 圆 括号 中 有 参数 表达 式 列 表 。C++ 代码 还 
可 能 会 隐 式 地 调用 函数 ， 而 没有 这 种 很 明显 的 调用 语句 。 当 一 个 变量 是 以 下 类 型 之 一 时 就 
可 能 会 发 生 这 种 情况 : 

。 声明 一 个 类 实例 (调用 构造 函数 ) 

。 初始 化 一 个 类 实例 (调用 构造 函数 ) 

。 赋值 给 一 个 类 实例 (调用 赋值 运算 符 ) 

。 涉及 类 实例 的 计算 表达 式 (调用 运算 符 成 员 函 数 ) 

。 退出 作用 域 (调用 在 作用 域 中 声明 的 类 实例 的 析 构 函数 ) 

。 函数 参数 (每 个 参数 表达 式 都 会 被 复制 构造 到 它 的 形 参 中 ) 

。 函数 返回 一 个 类 的 实例 (调用 复制 构造 函数 ， 可 能 是 两 次 ) 
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。 向 标准 库容 器 中 插入 元 素 (元 素 会 被 移动 构造 或 复制 构造 ) 
。 向 矢量 中 插入 元 素 (如 果 矢 量 重新 分 配 了 内 存 ， 那 么 所 有 的 元 素 都 需要 被 移动 构造 或 是 
复制 构造 ) 


这 些 函 数 调用 被 隐藏 起 来 了 。 你 从 表面 上 看 不 出 带 有 名 字 和 参数 列表 的 函数 调用 。 它 们 看 
起 来 更 像 赋值 和 声明 。 我 们 很 容易 误 以 为 这 里 没有 发 生 国 数 调用 。 我 在 6.5 市 中 已 经 讨论 
过 这 些 内 容 了 。 

如 果 将 函数 签名 从 通过 值 传递 实 参 修改 为 传递 指向 类 的 引用 或 指针 ， 有 时 候 可 以 在 进行 隐 
式 国 数 调用 时 移 除 形 参 构建 。 在 4.2.3 节 中 ， 我 已 经 在 字符 串 中 证 明 过 这 一 点 了 ， 而 对 于 
其 他 复制 数据 的 对 象 ， 我 则 在 6.5.2 市 中 证 明 过 了 。 


如 果 将 函数 签名 修改 为 通过 输出 参数 返回 指向 类 实例 的 引用 或 指针 时 ， 可 以 在 进行 隐 式 
函数 调用 时 移 除 函 数 返 回 值 的 复制 。 我 已 经 在 4.2.5 节 中 证 明了 这 对 字符 串 是 有 效 的， 在 
6.5.3 市 中 则 已 证 明 对 任何 其 他 复制 数据 的 对 象 都 是 有 效 的 。 

如 果 赋 值 语句 和 初始 化 声明 具有 循环 不 变性 ， 那 么 我 们 可 以 将 它们 移动 到 循环 外 部 。 有 
时 ， 即 使 需要 每 次 都 将 变量 传递 到 循环 中 ， 你 也 可 以 将 声明 移动 到 循环 外 部 ， 并 在 每 次 循 
环 中 都 执行 一 次 开销 较 小 的 国 数 调用 。 例 如 ，std: :string 是 一 个 含有 动态 分 配 内 存 的 字 
符 数 组 的 类 。 在 以 下 代码 中 : 


for" (Ga) 
std::string s("<p>"); 








































































































i "</p>"; 
} 
在 for 循环 中 声明 s 的 开销 是 昂贵 的 。 在 循环 语句 块 的 反 大 括号 的 位 置 将 会 调用 s 的 析 构 
国 数 ， 而 析 构 国 数 会 释放 为 s 动态 分 配 的 内 存 ， 因 此 当下 一 次 进入 循环 时 ， 一 定 会 重新 分 
配 内 存 。 这 段 代 码 可 以 被 优化 为 : 
std::string s; 
for (Ca) { 


s.clear(); 
S += "<p>"; 








i "</p>"; 
} 

现在 ， 不 会 再 在 每 次 循环 中 都 调用 s 的 析 构 函数 了 。 这 不 仅仅 是 在 每 次 循环 中 都 市 省 了 一 
次 函数 调用 ， 同 时 还 带 来 了 其 他 效果 一 一 由 于 s 内 部 的 动态 数组 会 被 复 用 ， 因 此 当 向 s 中 
添加 字符 时 ， 可 能 会 移 除 一 次 对 内 存 管理 器 的 调用 。 
这 种 行为 不 仅仅 适用 于 字符 串 或 是 那些 含有 动态 内 存 的 类 。 类 实例 中 还 可 能 会 含有 取 自 操 
作 系 统 的 资源 ， 如 一 个 窗口 或 是 文件 句柄 ， 抑 或 可 能 会 在 它 自身 的 构造 函数 和 析 构 函数 中 
进行 一 些 开销 昂贵 的 处 理 。 







































































7.1.7 “从 循环 中 移 除 昂贵 的 、 缓 慢 改 变 的 调用 

有 些 国 数 调用 虽然 并 不 具有 循环 不 变性 ， 但 是 也 可 能 变 得 具有 循环 不 变性 。 一 个 典型 的 例 
子 是 在 日 志 应 用 程序 中 调用 获取 当前 时 间 的 函数 。 它 只 需要 几 条 指令 即 可 从 操作 系统 获取 
当前 上 时间， 但 是 却 需 要 花费 些 时 间 来 格式 化 显示 时 间 。 代 码 清 单 7-11 是 一 个 将 当前 时 间 转 
换 为 以 空 字符 结尾 的 字符 数组 的 函数 。 

代码 清单 7-11 timetoa(): 将 时 间 格 式 化 为 字符 数组 


# include <ctime> 

















char* timetoa(char *buf, size t bufsz) { 
if (buf == 0 || bufsz < 9) 
return nuLLptr; // 无 效 参数 
time tt = std::time(nullptr); // 从 操作 系统 中 获取 时 间 
tm tm = *std::localtime(&t); // 将 时 间 分 解 为 时 分 秒 
size t sz = std::strftime(buf，bufsz，"%c"，&tm); // 格式 化 到 缓存 
if (sz == 0) strcpy(buf，"XX:XX:XX"); // 错误 
return buf; 





也 





} 
在 性 能 测试 实验 中 ，timetoa() 花费 了 大 约 700 纳 秒 完成 了 获取 和 格式 化 时 间 的 处 理 。 但 
是 这 个 时 间 太 长 了 ， 它 相当 于 连接 两 个 文本 字符 串 到 文件 中 的 时 间 的 两 倍 。 在 相同 的 性 能 
测试 中 ,语句 
out << "Fri Jan 01 00:00:00 2016" 
<< " Test log Line test Log line test Log line\n"; 
只 花费 了 372 纳 秒 ， 而 语句 


out << timetoa(buf, sizeof(buf)) 
<< " Test Log Line test Log line test Log line\n"; 


则 花费 了 1042 纳 秒 。 

日 志 记 录 必 须 尽 可 能 地 高 效 ， 否 则 会 降低 程序 的 性 能 。 如 果 这 降低 了 程序 性 能 就 糟糕 了 ， 
如 果 性 能 的 下 降 改变 了 程序 行为 ， 进 而 导致 在 打开 日 志 记 录 后 程序 的 bug 消失 就 更 糟 了 。 
在 这 个 例子 中 ， 获 取 当 前 时 间 决 定 了 记录 日 志 的 开销 。 

相 比 于 现代 计算 机 的 指令 执行 速度 ， 时 间 的 改变 非常 慢 。 很 明显 ， 我 的 程序 可 以 在 两 次 时 
标 之 间 记 录 100 万 行 日 志 。 因 此 ， 连 续 调用 timetoa() 两 次 获取 到 的 当前 时 间 可 能 是 相同 
的 。 如 果 需 要 一 次 记录 许多 行 日 志 ， 那 么 就 没有 理由 在 记录 每 条 时 都 去 获取 当前 时 间 。 
我 进行 了 一 项 测试 来 模拟 程序 请 求 当 前 时 间 时 的 日 志 行 为 ， 然 后 使 用 相同 的 时 间 以 10 行 
日 志 为 一 组 输出 日 志 。 与 预想 相同 ， 这 项 测试 的 输出 结果 是 平均 每 行 耗 时 376 纳 秒 。 


7.1.8 将 循环 放 入 函数 以 减少 调用 开销 
如 果 程序 要 毅 历 字符 串 、 数 组 或 是 其 他 数据 结构 ， 并 会 在 每 次 迭代 中 都 调用 一 个 国 数 ， 那 


么 可 以 通过 一 种 称 为 循环 倒置 (loop inversion) 的 技巧 来 提高 程序 性 能 。 循 环 倒置 是 指 将 
在 循环 中 调用 函数 变 为 在 函数 中 进行 循环 。 这 需要 改变 函数 的 接口 ， 不 再 接收 一 条 元 素 作 
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为 参数 ， 而 是 接收 整个 数据 结构 作为 参数 。 按 照 这 种 方式 修改 后 ， 如 果 数 据 结 构 中 包含 m 
条 元 素 ， 那 么 可 以 市 省 n-1 次 函数 调用 。 


我 们 来 看 一 个 非常 简单 的 例子 。 下 面 这 个 函数 的 功能 是 用 点 (“.”) 替代 非 打 印字 符 : 


# include <ctype> 














void replace nonprinting(char& c) { 
if (!isprint(c)) 
(cm 


} 
当 想 替换 一 个 字符 串 中 所 有 的 非 打 印字 符 时 ， 可 以 在 程序 中 循环 中 调用 replace_ 
nonprinting(): 


for (unsigned i = 0, e = str.size(); i < e; ++i) 
replace_nonprinting(str[i]); 


如 果 编 译 器 无 法 对 replace_nonprinting() 内 联展 开 ， 那 么 当 需 要 处 理 的 字符 串 是 “Ring 
the carriage bell\x07\x07!!” 时 ， 它 会 调用 这 个 国 数 26 次 。 


库 的 设计 者 可 以 重 载 replace_nonprinting() 函数 来 处 理 整个 字符 串 : 


void repLace_nonprinting(std::string& str) { 
for (unsigned i = 0, e = str.size(); i < e; ++i) 
if (!isprint(str[i])) 
(a 

















} 
现在 ,循环 在 函数 内 部 了 ， 这 样 可 以 节省 n-1 次 对 replace_nonprinting() 的 调用 。 
请 注意 ， 必 须 将 replace_nonprinting() 的 实现 代码 复制 到 新 的 重 载 函 数 中 。 仅 仅 在 新 的 
重 载 函数 的 循环 中 调用 之 前 的 函数 是 没有 效果 的 。 下 面 的 版 本 实际 上 只 是 在 循环 中 调用 了 
之 前 的 函数 : 

void repLace_nonprinting(std::string& str) { 


for (unsigned i = 0, e = str.size(); i < e; ++i) 
replace_nonprinting(str[i]); 











J} 


7.1.9 不 要 频繁 地 进行 操作 

我 们 来 看 一 个 启发 式 问题 :“ 在 一 个 程序 的 主 循环 中 每 秒 处 理 约 1000 个 事务 ， 那 么 它 应 当 
每 隔 多 长 时 间 检 测 一 次 是 否 有 终止 命令 呢 ?”” 

答案 当然 是 “ 视 情况 而 定 "。 事 实 上 ， 这 取决 于 两 件 事 情 : 程序 需要 以 多 快 的 速度 响应 终 
止 请 求 ， 以 及 程序 检查 终止 命令 的 开销 。 

如 果 程 序 的 响应 目标 是 需要 在 一 秒 内 停止 程序 ， 而 且 在 检测 到 停止 命令 后 需要 平均 500 土 
100 毫秒 来 停止 程序 ， 那 么 它 需 要 每 400 毫秒 (1000 - (500 + 100) = 400 毫秒 ) 检测 一 次 。 
更 频繁 地 检测 只 会 是 浪费 。 



































另 一 个 因素 是 检测 终止 命令 的 开销 。 如 果 主 循环 是 Windows 消息 循环 ， 那 么 终止 命令 就 是 
Windows 的 WM_CLOSE 消息 。 由 于 此 时 开销 包含 在 了 事件 分 发 中 ， 因 此 不 会 发 生 额 外 的 检测 
开销 。 如 果 信 号 处 理 函 数 会 设置 一 个 bool 标识 位 ， 那 么 每 次 在 循环 中 检测 这 个 标识 位 的 开 
销 非 常 微小 。 

但 是 如 果 是 在 人 嵌入 式 设备 上 用 循环 轮 询 键 盘 按 键 ， 而 且 必 须 对 按键 消除 拌 动 ”50 毫秒 时 会 
怎样 呢 ? 每 次 测试 程序 进入 循环 都 会 在 每 个 事务 的 开销 上 加 上 50 毫秒 按键 轮 询 开 销 ， 将 
处 理 速 度 从 每 秒 1000 个 事务 降低 为 每 秒 1/0.051 = 20 个 事务 。 这 个 结果 让 人 难以 接受 。 


如 果 程 序 只 以 400 毫秒 的 间隔 轮 询 键盘 按 下 事件 ， 那 么 对 循环 性 能 的 影响 就 没有 那么 大 
了 。 这 里 的 数学 计算 有 些 宛 长 ， 我 们 跳 过 这 部 分 。 每 个 事务 大 约 耗 时 1 毫秒 (因为 每 秒 
1000 个 事务 )。 那 么 要 每 400 毫秒 进行 一 次 耗 时 50 毫秒 的 轮 询 ， 轮 询 必 须 从 350 毫秒 开 
始 ， 即 1000 毫秒 2.5 次 。 这 样 ， 事 务 的 处 理 速率 就 是 每 秒 1000 - (2.5 x 50) = 875 个 事务 。 


代码 清单 7-12 展示 了 检测 按键 是 否 按 下 的 代码 。 
代码 清单 7-12 不 要 频繁 地 检测 事件 


void main loop(Event evt) { 
static unsigned counter = 1; 
if ((counter % 350) == 0) 
if (poll_for_exit()) 
exit_program(); // 不 返 
++Counter; 





























































































































回 


switch (evt) { 


} 
} 
执行 会 每 毫秒 进入 一 次 main_loop() (假设 事件 的 发 生 时 间 是 毫秒 级 )。 每 次 通过 循环 时 都 
会 增加 计数 值 。 当 计数 值 达到 350 时 ， 程 序 会 调用 poll_for_exit()， 这 将 会 花费 50 毫秒 。 
如 果 在 poll_for_exit() 中 检测 到 退出 键 按 下 ， 代 码 会 调用 exit_program()， 这 将 会 花费 
400~600 毫秒 来 停止 程序 。 


这 种 非 正 式 的 轮 询 方法 展示 了 如 何在 两 次 轮 询 间 进 行 更 多 的 计算 。 不 过 ， 它 也 带 有 许多 假 

设 条 件 。 

。 它 假 设 每 党 秒 都 发 生 事件 ， 而 不 是 有 时 候 每 2 富 秒 或 是 每 5 宣 秒 ， 而 且 即 使 在 没有 任何 
工作 时 ， 这 个 事件 的 发 生 速率 也 不 会 降低 。 

。 它 假设 轮 询 总 是 精确 地 耗 时 50 毫秒 。 

。 它 假设 调试 器 永远 不 会 获取 程序 控制 权 ， 即 使 开发 人 员 在 检查 变量 的 值 时 ， 也 不 会 有 任 
何 一 个 事件 需要 花费 半分 钟 。 

一 种 更 加 稳妥 的 方法 是 ， 测 量 两 个 事件 之 间 经 过 的 时 间 以 及 从 进入 poll_for_exit() 到 退 









































注 2: 当 一 个 真实 的 机 械 按 键 被 按 下 时 会 建立 一 个 连接 ， 而 这 个 连接 最 初 是 断断续续 的 。 在 这 种 初始 的 断 续 
状态 下 ,一 瞬间 去 查看 这 个 连接 的 状态 会 误 认 为 按键 没有 被 按 下 。“ 消 除 拌 动 ”使 得 按键 被 按 下 的 消 
息 被 推迟 至 连接 变 为 连续 状态 后 才 发 送 。50 毫秒 是 一 个 常用 的 消除 抖动 间隔。 
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出 poLL_for_exit() 之 间 经 过 的 时 间 。 


如 果 面 对 上 面 列 举 出 的 各 种 限制 条 件 ， 开 发 人 员 仍 然 想 要 实现 每 秒 1000 个 事务 的 响应 指 
标 ， 那 么 他 必须 找 出 并 发 实现 主 循环 与 轮 询 键 盘 按 键 事 件 的 方法 。 典 型 的 实现 方式 有 中 
断 、 多 核心 处 理 和 使 用 硬件 的 键盘 扫描 器 。 


7.1.10 ”其 他 优化 技巧 


在 互联 网 上 有 许多 关于 循环 的 底层 优化 技巧 资料 。 例 如 ， 有 些 资料 指出 ++i 通常 比 it+ 更 
加 高 效 ， 因 为 不 需要 保存 或 是 返回 任何 中 间 值 。 有 些 资料 建议 展开 循环 来 减少 循环 条 件 测 
试 语句 和 循环 条 件 增 长 语句 的 执行 次 数 。 

这 些 建议 的 问题 在 于 它们 并 非 总 是 有 效果 。 你 可 能 花费 了 很 多 时 间 来 进行 这 些 实验 ,但 是 
却 观察 不 到 任何 改善 效果 。 这 些 建议 来 自 于 猜想 而 非 实 验 结果 ， 或 者 可 能 在 某 个 特定 的 日 
子 里 在 某 种 特定 的 编译 器 上 有 效果 。 这 些 建议 也 可 能 来 自 关于 编译 器 设计 的 教材 ， 它 们 所 
描述 的 性 能 优化 技巧 实际 上 编译 器 已 经 替 我 们 做 了 。 这 30 多 年 来 ， 现 代 C++ 编译 器 已 经 
非常 善于 将 循环 内 的 代码 移动 到 循环 外 部 了 。 事 实 上 ， 编 译 器 比 绝 大 多 数 程 序 员 的 编程 能 
力 更 加 优秀 。 这 也 是 为 什么 使 用 类 似 的 性 能 优化 技巧 的 结果 总 是 让 人 泪 丧 ， 以 及 为 什么 本 
市 中 的 内 容 并 不 会 大 多 。 


7.2 ”从 函数 中 移 除 代码 


与 循环 一 样 ， 国 数 也 包含 两 部 分 : 一 部 分 是 由 一 段 代 码 组 成 的 函数 体 ， 另 一 部 分 是 由 参数 
列表 和 返回 值 类 型 组 成 的 函数 头 。 与 优化 循环 一 样 ， 这 两 部 分 也 可 以 独立 优化 。 

尽管 执行 函数 体 的 开销 可 能 会 非常 大 ， 但 是 调用 函数 的 开销 与 调用 大 多 数 C++ 语句 的 开销 
一 样 ， 是 非常 小 的 。 不 过 ， 当 函数 被 多 次 调用 时 ， 累 积 的 开销 可 能 会 变 得 巨大 ， 因 此 减少 
这 种 开销 非常 重要 。 


7.2.1 函数 调用 的 开销 

函数 是 编程 中 最 古老 和 最 重要 的 抽象 概念 。 程 序 员 先 定义 一 个 函数 ， 接 着 就 可 以 在 代码 
中 的 其 他 地 方 调用 这 个 函数 。 每 次 调用 时 ， 计 算 机 都 会 在 执行 代码 中 保存 它 的 位 置 ， 将 
控制 权 交 给 函数 体 ， 接 着 会 返回 到 函数 调用 后 的 下 一 条 语句 ， 高 效 地 将 函数 体 插 入 到 指 
邻 执 行 流 中 。 
这 种 便利 性 可 不 是 免费 的 。 每 次 程序 调用 一 个 国 数 时 ， 都 会 发 生 类 似 下 男 
赖 于 处 理 器 体系 结构 和 优化 器 设置 ) 。 

() 执行 代码 将 一 个 栈 帧 推 入 到 调用 栈 中 来 保存 国 数 的 参数 和 局 部 变量 。 
(2) 计算 每 个 参数 表达 式 并 复制 到 栈 帧 中 。 

(3) 执行 地 址 被 复制 到 栈 帧 中 并 生成 返回 地 址 。 

(4) 执行 代 码 将 执行 地 址 更 新 为 函数 体 的 第 一 条 语句 (而 不 是 函数 调用 后 的 下 一 条 语句 )。 
(5) 执 行 函数 体 中 的 指令 。 

(6) 返回 地 址 被 从 栈 幅 中 复制 到 指令 地 址 中 ， 将 控制 权 交 给 函数 调用 后 的 语句 。 
































































































































i 这 样 的 处 理 ( 依 
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(7) 栈 帧 被 从 栈 中 弹出 。 


不 过 ， 关 于 国 数 开销 也 有 一 些 好 消息 。 带 有 国 数 的 程序 通常 都 会 比 带 有 被 内 联展 开 的 大 
型 函数 的 程序 更 加 紧凑 。 这 有 利于 提高 缓存 和 虚拟 内 存 的 性 能 。 而 且 ， 国 数 调用 与 非 国 
数 调用 的 其 他 开销 都 相同 ， 这 使 得 提高 会 被 频繁 地 调用 的 函数 的 性 能 成 为 了 一 种 有 效 的 
优化 手段 。 


1. 函数 调用 的 基本 开销 
有 许多 细 市 问题 都 会 降低 C++ 中 函数 调用 的 速度 ， 这 些 问 题 也 构成 了 函数 调用 优化 的 基础 。 


函数 参数 
除了 计算 参数 表达 式 的 开销 外 ， 复 制 每 个 参数 的 值 到 栈 中 也 会 发 生 开销 。 如 果 只 有 几 个 
小 型 的 参数 ， 那 么 可 能 可 以 很 高 效 地 将 它们 传递 到 寄存 器 中 ， 但 是 如 果 有 很 多 参数 ， 那 
么 至 少 其 中 一 部 分 需要 通过 栈 传递 。 

成 员 未 数 调用 〈 与 函数 调用 ) 
每 个 成 员 函 数 都 有 一 个 额外 的 隐藏 参数 ， 一 个 指向 this 类 实例 的 指针 ， 而 成 员 函 数 正 是 
通过 它 被 调用 的 。 这 个 指针 必须 被 写 入 到 调用 栈 上 的 内 存 中 或 是 保存 在 寄存 器 中 。 


调用 和 返回 
调用 和 返回 对 程序 的 功能 没有 任何 影响 。 我 们 可 以 通过 用 函数 体 赫 代 函 数 调用 来 移 除 这 
些 开 销 。 的 确 ， 当 函数 很 小 且 在 函数 被 调用 之 前 已 经 定义 了 函数 时 ,许多 编译 器 都 会 试 
图 内 联 函 数 体 。 如 果 不 能 内 联 函 数 ， 调 用 和 返回 就 会 产生 开销 。 
调用 函数 要 求 执行 地 址 被 写 入 到 栈 帧 中 来 生成 返回 地 址 。 
国 数 返 回 要 求 执行 地 址 从 栈 中 被 读 取出 来 并 加 载 到 执行 指针 中 。 在 调用 和 返回 时 ， 执 行 
连续 地 工作 于 非 连 续 的 内 存 地 址 上 。 正 如 在 2.2.7 节 中 所 讲 过 的 ， 计 算 机 能 够 高 效 地 执 
行 连续 指令 。 不 过 ， 当 程序 执行 需要 跨越 非 连续 地 址 时 ， 可 能 会 发 生 流水 线 停顿 和 高 速 
缓存 未 命中 。 
2. 虚 函 数 的 开销 
在 C++ 中 可 以 将 任何 成 员 函 数 定义 为 虚 函 数 。 继 承 类 能 够 通过 定义 一 个 具有 相同 函数 签名 
的 成 员 函 数 来 重 写 基 类 的 虚 成 员 函 数 。 这 样 ， 不 论 是 在 继承 类 实例 上 调用 虚 函 数 还 是 在 一 
个 指向 基 类 类 型 的 指针 或 是 引用 上 调用 虚 函 数 ， 都 可 以 使 用 新 的 函数 体 。 程 序 在 解 引 类 实 
例 时 会 选择 调用 哪个 函数 。 因 此 ， 程 序 是 在 运行 时 通过 类 实例 的 实际 类 型 来 确定 要 调用 哪 
个 重 写 函数 的 。 


每 个 带 有 虚 成 员 函 数 的 实例 都 有 一 个 无 名 指针 指向 一 张 称 为 虚 函 数 表 (vtable) 的 表 ， 这 
张 表 指向 类 中 可 见 的 每 个 虚 函 数 签名 所 关联 的 函数 体 。 虚 函数 表 指 针 通 常 都 是 类 实例 的 第 
一 个 字段 ， 这 样 解 引 时 的 开销 更 小 。 


由 于 虚 函 数 调用 会 从 多 个 函数 体 中 选择 一 个 执行 ， 调 用 虚 函 数 的 代码 会 解 引 指向 类 实例 的 
引 针 ， 来 获得 指向 虚 函 数 表 的 指针 。 这 段 代码 会 为 虚 函 数 表 加 上 索引 (也 就 是 说 ， 代 码 会 
在 虚 函 数 表 上 加 上 一 段 小 的 整数 偏 移 量 并 解 引 访 地址) 来 得 到 函数 的 执行 地 址 。 因 此 ， 实 
际 上 这 里 会 为 所 有 的 虚 函 数 调 用 额外 地 加 载 两 次 非 连续 的 内 存 ， 每 次 都 会 增加 高 速 缓存 未 
命中 的 几率 和 发 生 流水 线 停顿 的 几率 。 虚 函数 的 另 一 个 问题 是 编译 器 难以 内 联 它们 。 编 译 
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器 只 有 在 它 能 同时 访问 函数 体 和 构造 实例 的 代码 (这样 编译 器 才能 决定 调用 虚 函 数 的 哪个 

函数 体 ) 时 才能 内 联 它们 。 

3. 继承 中 的 成 员 函 数 调用 

当 一 个 类 继承 另 一 个 类 时 ,继承 类 的 成 员 函 数 可 能 需要 进行 一 些 额 外 的 工作 。 

继承 类 中 定义 的 庶 成 员 函 数 
如 果 继 承 关 系 最 顶端 的 基 类 没有 虚 成 员 函 数 ， 那 么 代码 必须 要 给 this 类 实例 指针 加 上 一 
个 偏 移 量 ， 来 得 到 继承 类 的 虚 函 数 表 ， 接 着 会 遍历 虚 函 数 表 来 获取 函数 执行 地 址 。 这 些 
代码 会 包含 更 多 的 指令 字 节 ， 而 且 这 些 指令 通常 都 比较 慢 ， 因 为 它们 会 进行 额外 的 计 
算 。 这 种 开销 在 小 型 内 入 式 处 理 器 上 非常 显著 ， 但 是 在 桌面 级 处 理 器 上 ， 指 令 级 别 的 并 
发 掩盖 了 大 部 分 这 种 额外 的 开销 。 

多 重 继 承 的 继承 类 中 定义 的 成 员 涵 数 调用 
代码 必须 向 this 类 实例 指针 中 加 上 一 个 偏 移 量 来 组 成 指向 多 重 继 承 类 实例 的 指针 。 这 种 
开销 在 小 型 岁入 式 处 理 器 上 非常 显 铸 ,但 是 在 桌面 级 处 理 嚣 上， 指令 级 别 的 并 发 掩盖 了 
大 部 分 这 种 额外 的 开销 。 

多 重 继承 的 继承 类 中 定义 的 虚 成 员 函 数 调用 
对 于 继承 类 中 的 虚 成 员 函 数 调用 ， 如 果 继 承 关 系 最 顶端 的 基 类 没有 虚 成 员 函 数 ， 那 么 代 
码 必须 要 给 this 类 实例 指针 加 上 一 个 偏 移 量 来 得 到 继承 类 的 虚 函 数 表 ， 接 着 会 遍历 虚 函 
数 表 来 获取 函数 执行 地 址 。 代 码 还 必须 向 this 类 实例 指针 加 上 潜在 的 不 同 的 偏 移 量 来 组 
成 继承 类 的 类 实例 指针 。 这 种 开销 在 小 型 嵌入 式 处 理 器 上 非常 显著 ， 但 是 在 桌面 级 处 理 
器 上 ， 指 令 级 别 的 并 发 掩盖 了 大 部 分 这 种 额外 的 开销 。 

庶 多 重 继承 
为 了 组 成 虚 多 重 继承 类 的 实例 的 指针 ， 代 码 必须 解 引 类 实例 中 的 表 ， 来 确定 要 得 到 指向 
虚 多 重 继 承 类 的 实例 的 指针 时 需要 加 在 类 实例 指针 上 的 偏 移 量 。 如 前 所 述 ， 当 被 调用 的 
函数 是 虚 函 数 时 ， 这 里 也 会 产生 额外 的 间接 开销 。 

4. 函数 指针 的 开销 

C++ 提供 了 函数 指针 ， 这 样 当 通 过 函数 指针 调用 函数 时 ， 代 码 可 以 在 运行 时 选择 要 执行 的 

国 数 体 。 除 了 基本 的 函数 调用 和 返回 开销 外 ， 这 种 机 制 还 会 产生 其 他 额外 的 开销 。 

函数 指针 〈 指 向 非 成 员 函 数 和 静态 成 员 亏 数 的 指针 ) 
C++ 允许 在 程序 中 定义 指向 函数 的 指针 。 程 序 员 可 以 通过 函数 指针 显 式 地 选择 一 个 具有 
特定 签名 (由 参数 列表 和 返回 类 型 组 成 ) 的 非 成 员 函 数 。 当 函数 指针 被 解 引 后 ， 这 个 函 
数 将 会 在 运行 时 会 被 调用 。 通 过 将 一 个 函数 赋值 给 函数 指针 ， 程 序 可 以 显 式 地 通过 函数 
指针 选择 要 调用 的 函数 。 
代码 必须 解 引 指针 来 获取 函数 的 执行 地 址 。 编 译 器 也 不 太 可 能 会 内 联 这 些 函 数 。 

成 员 池 数 指针 
成 员 函 数 指针 声明 同时 指定 了 函数 签名 和 解释 函数 调用 的 上 下 文中 的 类 。 程 序 通过 将 函 
数 赋值 给 函数 指针 ， 显 式 地 选择 通过 成 员 函 数 指针 调用 哪个 函数 。 
成 员 函 数 指针 有 多 种 表现 形式 ， 一 个 成 员 函 数 只 能 有 一 种 表现 形式 。 它 必须 足够 通用 才 
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能 够 在 以 上 列举 的 各 种 复杂 的 场景 下 调用 任意 的 成 员 函 数 。 我 们 有 理由 认为 一 个 成 员 函 
数 指针 会 出 现 最 差 情况 的 性 能 。 
5. 函数 调用 开销 总 结 
因此 ，C 风格 的 不 带 参 数 的 void 函数 的 调用 开销 是 最 小 的 。 如 果 能 够 内 联 它 的 话 ， 就 没有 
开销 ， 即 使 不 能 内 联 ， 开 销 也 仅仅 是 两 次 内 存 读 取 加 上 两 次 程序 执行 的 非 局 部 转移 “。 


如 果 基 类 没有 虚 函 数 ， 而 虚 函 数 在 多 重 虚 拟 继 承 的 继承 类 中 ， 那 么 这 是 最 坏 的 情况 。 不 过 
幸运 的 是 ， 这 种 情况 非常 罕见 。 在 这 种 情况 下 ， 代 码 必 须 解 引 类 实例 中 的 函数 表 来 确定 加 
到 类 实例 指针 上 的 偏 移 量 ， 构 成 虚拟 多 重 继承 函数 的 实例 的 指针 ， 接 着 解 引 该 实例 来 歼 取 
虚 函 数 表 ， 最 后 索引 虚 函 数 表 得 到 函数 执行 地 址 。 


此 时 ,读者 可 能 会 惊讶 函数 调用 的 开销 居然 如 此 之 大 ， 抑 或 是 惊叹 C++ 居然 如 此 高 效 地 实 
现 了 这 么 复杂 的 特性 。 这 两 种 看 法 都 是 合理 的 。 需 要 理解 的 是 正 是 有 了 函数 调用 开销 ， 才 
有 优化 的 机 会 。 坏 消息 是 除非 函数 会 被 频 紧 地 调用 ， 否 则 移 除 一 处 非 连 续 内 存 读 取 并 不 足 
以 改善 性 能 ， 好 消息 则 是 分 析 器 会 直接 指出 调用 最 频繁 的 函数 ， 让 开发 人 员 能 够 快速 地 集 
中 精力 于 最 佳 优化 对 象 。 


7.2.2 简短 地 声明 内 联 函 数 

移 除 函 数 调用 开销 的 一 种 有 效 方式 是 内 联 函 数 。 要 想 内 联 函 数 ， 编 译 器 必须 能 够 在 国 数 调 
用 点 访问 函数 定义 。 那 些 函 数 体 在 类 定义 中 的 函数 会 被 隐 式 地 声明 为 内 联 函 数 。 通 过 将 在 
类 定义 外 部 定义 的 函数 声明 为 存储 类 内 联 ， 也 可 以 明确 地 将 它们 声明 为 内 联 函 数 。 此 外 ， 
如 果 函 数 定义 出 现在 它们 在 某 个 编译 单元 中 第 一 次 被 使 用 之 前 ， 那 么 编译 器 还 可 能 会 自己 
选择 内 联 较 短 的 函数 。 尽 管 C++ 标准 说 intine 关键 字 只 是 对 编译 器 的 “提示 ”"， 但 是 实际 
上 为 了 编译 器 自己 的 销量 ， 它 们 必须 善于 内 联 函 数 。 
当 编 译 器 内 联 一 个 函数 时 ， 那 么 它 还 有 可 能 会 改善 代码 ， 包 括 移 除 调用 和 返回 语句 。 有 些 
数学 计算 可 能 会 在 编译 时 完成 。 如 果 编 译 器 能 够 确定 当 参 数 为 某 个 特定 值 时 有 些 分 支 永 远 
` 会 执行 ， 那 么 编译 器 会 移 除 这 些 分 支 。 因 此 ， 内 联 是 一 种 通过 在 编译 时 进行 计算 来 移 除 
多 余 计 算 的 改善 性 能 的 手段 。 

函数 内 联 可 能 是 最 强力 的 代码 优化 武器 。 事 实 上 ，Visual Studio 中 “调试 ”版 本 与 “正式 ” 
版 本 (或 是 在 GCC 的 -d 选项 与 -0 选项 ) 的 性 能 区 别 ， 主 要 产 于 “调试 ”版 本 关闭 了 图 
数 内 联 。 


7.2.3 在 使 用 之 前 定义 函数 

在 第 一 次 调用 函数 之 前 定义 函数 (提供 函数 体 ) 给 了 编译 器 优化 函数 调用 的 机 会 。 当 编译 
器 编译 对 某 个 函数 的 调用 时 发 现 该 函数 已 经 被 定义 了 ， 那 么 编译 器 能 够 自主 选择 内 联 这 次 
函数 调用 。 如 果 编 译 器 能 够 同时 找到 函数 体 ， 以 及 实例 化 那些 发 生 虚 函 数 调用 的 类 变量 、 
名 或 是 引用 的 代码 ， 那 么 这 也 同样 适用 于 虚 函 数 。 
























































































































































注 3: 即 非 局 部 跳 转 。 一 一 译 者 注 








优化 热点 语句 | 129 


7.2.4 ” 移 除 未 使 用 的 多 态 性 


在 C++ 中， 虚 成 员 函 数 多 用 来 实现 运行 时 多 态 性 。 多 态 性 允许 成 员 函 数 根据 不 同 的 调用 对 
象 ， 从 多 个 不 同 但 语义 上 有 关联 的 方法 中 选择 一 个 执行 。 


要 实现 多 态 行为 ， 可 以 在 基 类 中 定义 虚 成 员 函 数 。 然 后 任何 继承 类 都 能 够 选择 使 用 特 化 行 
为 来 重 写 基 类 函数 的 行为 。 这 些 不 同 的 实现 是 通过 每 个 继承 类 都 必须 有 不 同 的 实现 的 语义 
概念 关联 在 一 起 的 。 


多 态 的 一 个 典型 例子 是 定义 在 表示 绘制 在 屏幕 上 的 图 形 对 象 的 Drawable0bject 的 继承 类 中 
的 Draw() 函数 。 当 调用 draw0bjpPtr->Draw() 时 ， 程 序 会 通过 解 引 draw0bjpPtr 所 指向 的 实例 
中 的 虚 函 数 表 来 选择 使 用 Draw() 的 哪 种 实现 。 当 类 实例 是 Triangte 的 实例 时 ，Draw() 的 实 
现 会 画 出 一 个 三 角形 ， 而 当 类 实例 是 Rectangle 的 实例 时 ， 则 会 画 出 一 个 长 方形 ， 等 等 。 由 
于 DrawabLe0bject::Draw() 被 声明 为 虚 函 数 ， 因 此 程序 会 调用 合适 的 继承 类 的 Draw() 成 员 
函数 。 当 程序 必须 在 运行 时 从 多 种 实现 中 选择 一 种 执行 时 ， 虚 函数 表 是 一 种 非常 高 效 的 机 
制 ， 它 的 间接 开销 只 有 两 次 额外 的 内 存 读 取 以 及 与 这 两 次 内 存 读 取 相关 的 流水 线 停 顿 。 


不 过 ， 多 态 仍然 可 能 会 带 来 不 必要 的 性 能 开销 。 例 如 ， 一 个 类 的 本 来 的 设计 目的 是 方便 实 
现 派 生 类 的 层次 结构 ， 但 是 最 后 却 没 有 实现 这 些 派生 类 ， 或 者 一 个 函数 被 声明 为 虚 函 数 是 
希望 利用 多 态 性 ， 但 这 个 函数 却 永 远 没 有 被 实现 。 在 上 面 的 例子 中 ， 所 有 的 可 绘制 对 象 可 
能 都 被 实现 为 按 顺 序 连 接 在 一 起 的 点 ， 这 样 就 总 是 会 使 用 基 类 中 的 Draw()。 当 不 会 重 写 该 
方法 时 ， 移 除 Drawable0bject 的 Draw() 函数 声明 中 的 virtual 关键 字 可 以 提高 Draw() 的 
调用 速度 。 





















































停 下 来 思 
设计 人 员 希 望 DrawabLe0bject 成 为 一 组 具有 继承 关系 的 类 层次 的 根 对 象 ， 而 性 能 优化 
开发 人 员 则 和 希望 改善 程序 性 能 ， 因 为 Draw() 成 员 函 数 根本 没有 实现 。 这 两 者 之 间 存 在 
矛盾。 假设 实验 指出 Draw() 成 员 函 数 就 是 性 能 问题 的 元 凶 ， 那 么 设计 人 员 可 能 会 让 
步 。 如 果 有 必要 ， 以 后 再 加 上 virtual 关键 字 也 是 很 容易 的 。 聪 明 的 开发 人 员 如 果 没 
有 充足 的 理由 是 不 会 去 破坏 设计 的 ， 而 且 也 不 会 要 求 修 改 所 有 的 虚 肠 数 。 











7.2.5 “放弃 不 使 用 的 接口 

在 C++ 中 可 以 使 用 虚 成 员 函 数 实现 接口 一 一 一 组 通用 函数 的 声明 。 这 些 函 数 描述 了 对 象 行 
为 ， 而 且 它 们 在 不 同 的 情况 下 有 不 同 的 实现 方式 。 基 类 通过 声明 一 组 纯 虚 函数 (有 函数 声 
明 , 但 没有 函数 体 的 函数 ) 定义 接口 。 由 于 纯 虚 函数 没有 函数 体 ， 因 此 C++ 不 允许 实例 化 
接口 基 类 。 继 承 类 可 以 通过 重 写 (定义 ) 接口 基 类 中 的 所 有 纯 虚 国 来 实现 接口 。C++ 中 接 
口 惯用 法 的 优点 在 于 ， 继 承 类 必须 实现 接口 中 声明 的 所 有 函数 ， 否 则 编译 器 将 不 会 允许 程 
序 创建 继承 类 的 实例 。 

例如 ， 开 发 人 员 可 以 使 用 接口 类 来 隔离 操作 系统 依赖 性 ， 特 别 是 当 设 计 人 员 预 计 需 要 为 
多 个 操作 系统 实现 程序 时 。 我 们 可 以 通过 下 面 的 接口 类 file 来 定义 读 写 文件 的 类 。 这 个 
file 被 称 为 抽象 基 类 ， 因 为 它 无 法 被 实例 化 : 
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// fitLe.h 一 一 接口 
class File { 
public: 

virtual ~File() {} 

virtual bool Open(Path& p) = 0; 

virtual bool Close() = 0; 

virtual int GetChar() = 0; 

virtual unsigned GetErrorCode() = 0; 


}; 
在 其 他 代码 中 定义 的 Windowsfile 继承 类 提供 了 这 些 函 数 在 Windows 操作 系统 上 的 实现 。 
C++11 中 的 关键 字 override 是 可 选 关 键 字 ， 它 告诉 编译 器 当前 的 声明 会 重 写 基 类 中 虚 函 数 的 
声明 。 当 指定 了 override 关键 字 后 ， 如 果 在 基 类 中 没有 虚 函 数 声明 ， 编 译 器 会 报 出 警告 消息 : 
// Windowsfile.h 一 一 接口 























# include "File.h" 
class WindowsFile : public File { // C++11 风 格 的 声明 
public: 

~File() {} 

bool Open(Path& p) override; 

bool Close() override; 

int GetChar() override; 

unsigned GetErrorCode() override; 


}; 
除了 头 文件 外 ， 还 有 一 个 包含 了 这 些 重 写 国 数 的 Windows 版 实现 的 windowsfile.cpp 文件 : 
// windowsfile.cpp 一 一 Windows 版 的 实现 


# include "WindowsFile.h" 
bool WindowsFile::O0pen(Path& p) { 





bool WindowsFile::Close() { 
2 
有 时 ， 一 个 程序 虽然 定义 了 接口 ， 但 是 只 提供 了 一 种 实现 。 在 这 种 情况 下 ， 通 过 移 除 接 


口 ， 即 移 除 fle.h 类 定义 中 的 virtual 关键 字 并 提供 file 的 成 员 函 数 的 实现 ， 可 以 市 省 虚 
函数 调用 (特别 是 频繁 地 对 GetChar() 的 调用 ) 的 开销 。 








停 下 来 思考 
正如 前 一 节 中 所 提 到 的 ， 开 发 人 员 清 晰 地 定义 接口 的 愿景 (这 当然 是 好 事 ) 与 性 能 优 
化 开发 人 员 改 善 性 能 (如果 GetChar() 被 分 析 器 标记 为 热点 池 数 ， 那 么 也 有 问题 ) 的 
渴求 之 间 存 在 了 矛盾。 在 程序 稳定 后 ， 判 断 有 无 其 他 实现 方法 会 更 加 容易 。 这 里 的 知识 
可 以 帮助 我 们 选择 到 底 是 优化 原来 的 设计 还 是 保留 原来 的 设计 。 如 果 性 能 优化 开发 人 
员 并 非 设计 接口 的 人 ， 那 么 当 他 提议 进行 修改 时 ， 必 须 做 好 被 驱 回 的 准备 。 他 人 可 能 
会 建议 他 拿 出 性 能 数据 来 证 明 修 改 的 合理 性 。 
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1. 在 链接 时 选择 接口 实现 

虚 函 数 允 许 程序 在 运行 时 从 多 个 实现 中 选择 一 种 。 接 口 允许 设计 人 员 指 定 在 开发 过 程 中 必 
须 编 写 哪些 函数 ， 以 使 一 个 对 象 可 以 在 程序 中 被 使 用 。 使 用 C++ 虚 国 数 实现 接口 惯用 法 的 
问题 在 于 ， 虚 函数 为 设计 时 问题 提供 的 是 一 个 带 有 运行 时 开销 的 运行 时 解决 方案 。 
在 上 一 节 中 ， 我 们 定义 了 一 个 名 为 file 的 接口 来 隔离 操作 系统 依赖 性 。 在 继承 类 
Windowsfile 中 我 们 实现 了 这 个 接口 。 如 果 要 将 这 个 程序 移植 到 Linux 上 ， 那 么 还 需要 给 这 
段 代码 加 上 一 个 file 接口 的 继承 类 Linuxfile， 但 是 Windowsfile 和 Linuxfile 永远 不 会 
在 同一 个 程序 中 被 实例 化 。 它 们 使 得 底层 调用 只 会 被 实现 在 一 种 操作 系统 上 。 这 样 就 不 会 
发 生 虚 函数 的 调用 开销 。 而 且 ， 如 果 这 个 程序 会 读 取 一 个 大 文件 ,file: :GetChar() 可 能 会 
变 为 需要 优化 的 热点 代码 。 


如 果 无 需 在 运行 时 做 出 选择 的 话 ， 那 么 开发 人 员 可 以 使 用 链接 器 来 从 多 个 实现 中 选择 一 
种 。 具 体 做 法 是 不 声明 C++ 接口 ， 而 是 在 头 文件 中 直接 声明 (但 不 实现 ) 成 员 函 数 ， 就 像 
它们 是 标准 库 函 数 一 样 : 
// file.h 一 一 接口 
class File { 
public: 
File(); 
bool Open(Path& p); 
bool Close(); 
int GetChar(); 
unsigned GetErrorCode(); 
































3 
在 windowsfile.cpp 文件 中 有 如 下 Windows 的 实现 代码 : 


// windowsfile.cpp 一 一 Windows 的 实现 代码 
# include "File.h" 





bool File::0Open(Path& p) { 
} 
bool File::Close() { 


} 





在 另外 一 个 名 为 linuxfile.cpp 的 相似 文件 中 包含 了 Linux 的 实现 。Visual Studio 工程 文件 引 
用 windowsfile.cpp，Linux 的 makefile 则 引用 linuxfile.cpp。 选 择 哪个 实现 会 由 链接 器 根据 
参数 列表 来 做 出 决定 。 现 在 ， 调 用 GetCchar() 已 经 达到 最 高 性 能 了 。 (请 注意 ， 还 有 其 他 方 
法 可 以 优化 GetChar() 这 样 的 函数 ， 包 括 7.1.8 节 中 提 到 的 循环 倒置 技巧 。) 

在 链接 时 选择 实现 的 优点 是 使 得 程序 具有 通用 性 ， 而 缺点 则 是 部 分 决定 被 放 在 了 .cpp 文件 
中 ， 部 分 决定 被 放 在 了 makefile 或 是 工程 文件 中 。 

2. 在 编译 时 选择 接口 实现 

在 上 一 市 中 ， 链 接 器 选择 了 file 抽象 类 的 一 种 实现 方法 。 这 是 可 行 的 ， 因 为 file 的 实现 
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依赖 于 操作 系统 。 如 果 某 个 程序 只 能 在 一 个 操作 系统 上 执行 ， 那 么 没有 必要 在 运行 时 选择 
实现 。 


如 果 对 于 两 种 fite 实现 使 用 不 同 的 编译 器 〈 例 如 对 Window 版 本 使 用 Visual Studio， 对 
Linux 版 本 使 用 GCC)， 那 么 可 以 在 编译 时 使 用 大 fdef 来 选择 实现 。 头 文件 不 需要 做 任何 
改变 。 下 面 是 一 个 名 为 file.cpp 的 源 文 件 ， 其 中 预 处 理 宏 会 选择 实现 : 

// file.cpp 一 一 实现 

# include "File.h" 


# ifdef _WIN32 
bool File::Open(Path& p) { 
































} 
bool File::Close() { 


站 


# else // Linux 
bool File::O0pen(Path& p) { 


} 


bool File::Close() { 


} 
# endif 
这 个 方法 要 求 能 够 使 用 预 处 理 宏 来 选择 所 希望 的 实现 。 有 些 开发 人 员 喜 欢 这 种 方法 ， 因 为 
可 以 在 .cpp 文件 中 做 更 多 决定 。 另 外 一 些 开 发 人 员 则 认为 在 一 个 文件 中 编写 两 种 实现 方式 
是 凌乱 且 非 面向 对 象 的 。 


7.2.6 用 模板 在 编译 时 选择 实现 

C++ 模板 特 化 是 另外 一 种 在 编译 时 选择 实现 的 方法 。 利 用 模板 ， 开 发 人 员 可 以 创建 具有 通 
用 接口 的 类 群 ， 但 是 它们 的 行为 取决 于 模板 的 类 型 参数 。 模 板 参数 可 以 是 任意 类 型 一 一 具 
有 自己 的 一 组 成 员 函 数 的 类 类 型 或 是 具有 内 建 运算 符 的 基本 类 型 。 因此， 存在 两 种 接口 : 
模板 类 的 public 成 员 ， 以 及 由 在 模板 参数 上 被 调用 的 运算 符 和 函数 所 定义 的 接口 。 抽 象 基 
类 中 定义 的 接口 是 非常 严格 的 ， 继 承 类 必须 实现 在 抽象 基 类 中 定义 的 所 有 函数 。 而 通过 模 
板 定 义 的 接口 就 没有 这 么 严格 了 。 只 有 参数 中 那些 实际 会 被 模板 的 某 种 特 化 所 调用 的 函数 
才 需 要 被 定义 。 

模板 的 特性 是 一 把 双 刃 剑 : 一 方面 ， 即 使 开发 人 员 在 某 个 模板 特 化 中 忘记 实现 接口 了 ， 编 
译 器 也 不 会 立即 报 出 错误 消息 ， 但 另 一 方面 ， 开 发 人 员 也 能 够 选择 不 去 实现 那些 在 上 下 文 
中 设 被 用 到 的 函数 。 

从 性 能 优化 的 角度 看 ， 多 态 类 层次 与 模板 实例 之 间 的 最 重要 的 区 别 是 ， 通 常 在 编译 时 整个 
模板 都 是 可 用 的 。 在 大 多 数 用 例 下 ，C++ 都 会 内 联 函 数 调 用 ， 用 多 种 方法 改善 程序 性 能 
(正如 7.2.2 市 所 指出 的 )。 
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模板 编程 提供 了 一 种 强力 的 优化 手段 。 对 于 那些 不 熟悉 模板 的 开发 人 员 来 说 ， 需 要 学 习 如 








何 高 效 地 使 用 C++ 的 这 个 特性 。 


7.2.7 ”避免 使 用 PIMPL 惯 用 法 





PIMPL 是 “Pointer to IMPLementation” 的 缩写 ， 它 是 一 种 用 作 编 译 防火 墙 一 一 一 种 防止 
修改 一 个 头 文件 会 触发 许多 源 文件 被 重 编译 的 机 制 一 一 的 编程 惯用 法 。20 世纪 90 年 代 是 
C++ 的 快速 成 长 期 ， 在 那 时 使 用 PIMPL 是 合理 的 ， 因 为 在 那个 年 代 ， 大 型 程序 的 编译 时 











间 是 以 小 时 为 单位 计算 的 。 下 面 是 PIMPL 的 工作 原理 。 




















件 被 重 编译 。 





代码 清单 7-13 ”实现 PIMPL 惯用 法 之 前 的 bigclass.h 

# include "foo.h" 

# include "bar.h" 

# include "baz.h" 

class BigClass { 

public: 
BigClass(); 
void fi(int a) { ... } 
void f2(fLoat f) { ...} 
Foo foo_; 
Bar bar_; 
Baz baz_; 


下 


要 实现 PIMPL， 开 发 人 员 要 定义 一 个 新 的 类 ， 在 本 例 中 ， 我 们 将 其 命名 为 Impl。bigclass.h 





的 修改 如 代码 清单 7-14 所 示 。 


代码 清单 7-14 ”实现 PIMPL 惯用 法 之 后 的 bigclass.h 


class Inmpl; 
class BigClass 了 
public: 
BigClass(); 
void fi1(int a); 
char f2(float f); 
Impl* impl; 





2}; 


C++ 允许 声明 一 个 指向 未 完成 类 型 ， 即 一 个 还 没有 定义 的 对 象 的 指针 。 在 本 例 中 ，Impt 就 


假设 Bigclass (代码 清单 7-13) 是 一 个 被 其 他 类 广泛 使 用 的 类 ， 它 有 一 些 内 联 函 数 ， 而 且 
征用 了 Foo 类 、Bar 类 和 Baz 类 。 一 般 情 况 下 ，bigclass.h、foo.h、bar.h 或 是 baz.h 的 任何 
改动 ， 哪 怕 只 是 代码 注释 中 的 一 个 字符 发 生 了 变化 ， 都 会 触发 许多 引用 了 bigclass.h 的 文 





是 一 个 未 完成 类 型 。 这 样 的 代码 之 所 以 能 够 工作 ， 是 因为 所 有 指针 的 大 小 都 是 相同 的 ， 








此 编译 器 知道 如 何 预 留 指针 的 存储 空间 。 在 实现 PIMPL 后 ，BigCLass 的 对 外 可 见 的 定义 








大 





不 再 依赖 foo.h、bar.h 或 baz.h 了 。 在 bigclass.cpp 中 有 Impl 的 完整 定义 (代码 清单 7-15)。 











代码 清单 7-1 


# include 
# include 
# include 
# include 


5 包含 Impl 的 定义 的 bigclass.cpp 


"foo.h”" 
"bar.h” 
"baz.h”" 
"bigclass.h" 


class Impl { 


void 
void 


g1(int a); 
g2(float f); 


Foo foo ; 
Bar bar_; 
Baz baz_; 


}; 

void Imp 
> i 
char Imp 


2} 


void BigC 
impl_ 


了 


void Big 


impl_ 


了 


char Big 
retu 


了 


1::91TCint a) 了 


l::g2(float fF) f{ 


lass::BigClass() { 
= new Impl; 


Class: :fi1(int a) 了 
-> g1(a); 


Class::f2(float 太 了 
rn impl_ -> g2(f) 


实现 了 PIMPL 后 ， 在 编译 时 ， 对 foo.h、bar.h 或 baz.h， 或 者 是 对 Impl 的 实现 的 改动 都 会 


导致 bigclass.cpp 被 重 编译 ， 但 是 bigclass.h 不 会 改变 ， 这 样 就 限制 了 重 编译 的 范 
时 序 带 来 了 延迟 。 之 前 BigClass 中 的 成 员 函 数 可 





在 运行 时 情况 就 不 同 了 。PIMPL 给 




















| 


o 


全 已 人 
能 会 


被 内 联 ， 而 现在 则 会 发 生 一 次 成 员 函 数 调用 。 而 且 ， 现 在 每 次 成 员 函 数 调用 都 会 调用 Imp1 
的 成 员 函 数 。 使 用 了 PIMPL 的 工程 往往 会 在 很 多 地 方 使 用 它 ， 导 致 形成 了 多 层 先 套 国 数 


调用 。 更 项 者 ， 这 些 额 外 的 函数 调用 层次 使 得 调试 变 得 更 加 困 














难 。 


2016 年 ，PIMPL 已 经 不 是 必需 的 了 ， 因 为 编译 时 间 可 能 已 经 减少 至 了 20 世纪 90 年 代 
的 1%。 而 且 ， 即 使 是 在 20 世纪 90 年 代 ， 也 只 有 当 BigClass 是 一 个 非常 大 的 类 ， 依 赖 
于 许多 头 文件 时 ， 才 需要 使 用 PIMPL。 这 样 的 类 





BigClass 分 解 ， 使 接 








7.2.8 ” 移 除 对 DDL 的 调用 








违背 





了 许多 面向 对 象 编程 原则 。 采 用 将 





口 功 能 更 加 集中 的 方法 ， 可 能 与 PIMPL 同样 有 效 。 


在 Windows 上 ， 当 DLL 被 按 需 加 载 后 在 程序 中 显 式 地 设置 函数 指针 ， 或 是 在 程序 启 


动 时 自动 地 加 载 DLL 时 隐 式 地 设置 函数 指针 ,然后 通过 这 个 函数 指针 调用 动态 链接 库 
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(dynamic link library，DDL)。Linux 上 也 有 动态 链接 库 ， 实 现 也 是 相同 的 。 


有 些 DLL 调用 是 必需 的 。 例 如 ， 应 用 程序 可 能 需要 实现 第 三 方 插件 库 。 其 他 情况 下 ，DLL 
则 不 是 必需 的 。 例 如 ， 有 时 之 所 以 使 用 DLL 仅仅 是 因为 它们 修复 了 一 些 bug。 经 验证 明 
bug 修复 通常 都 是 批量 的 ， 一 次 性 覆盖 了 程序 中 的 各 个 地 方 。 这 限制 了 在 一 个 DLL 中 修复 
所 有 bug 的 可 能 性 ， 破 坏 了 DLL 的 用 途 。 


另外 一 种 改善 函数 调用 性 能 的 方式 是 不 使 用 DLL， 而 是 使 用 对 象 代码 库 并 将 其 链接 到 可 执 
行程 序 上 。 


7.2.9 使 用 静态 成 员 函 数 取 代 成 员 函 数 

每 次 对 成 员 函 数 的 调用 都 有 一 个 额外 的 隐 式 参数 ， 指 向 成 员 函 数 被 调用 的 类 实例 的 thts 指 
针 。 通 过 对 thts 指针 加 上 偏 移 量 可 以 获取 类 成 员 数 据 。 虚 成 员 函 数 必须 解 引 thts 指针 来 
获得 虚 函 数 表 指针 。 

有 时 ， 一 个 成 员 函 数 中 的 处 理 仅仅 使 用 了 它 的 参数 ， 而 不 用 访问 成 员 数据 ， 也 不 用 调用 其 
他 的 虚 成 员 函 数 。 在 这 种 情况 下 ，thts 指针 没有 任何 作用 。 


我 们 应 当 将 这 样 的 成 员 函 数 声明 为 静态 函数 。 静 态 成 员 函 数 不 会 计算 隐 式 this 指针 ， 可 以 
通过 普通 函数 指针 ， 而 不 是 开销 更 加 昂贵 的 成 员 函 数 指针 找到 它们 (请 参见 7.2.1 节 中 的 
“函数 指针 的 开销 ”)。 


7.2.10 “将 虚 析 构 函数 移 至 基 类 中 


任何 有 继承 类 的 类 的 析 构 函数 都 应 当 被 声明 为 虚 函 数 。 这 是 有 必要 的 ， 这 样 delete 表达 式 
将 会 引用 一 个 指向 基 类 的 指针 ， 继 承 类 和 基 类 的 析 构 函数 都 会 被 调用 。 


另外 一 个 在 继承 层次 关系 顶端 的 基 类 中 声明 虚 函 数 的 理由 是 : 确保 在 基 类 中 有 虚 函 数 表 指 针 。 


继承 层次 关系 中 的 基 类 处 于 一 个 特殊 的 位 置 。 如 果 在 这 个 基 类 中 有 虚 成 员 函 数 声明 ， 那 
么 虚 国 数 表 指针 在 其 他 继承 类 中 的 偏 移 量 是 0， 如 果 这 个 基 类 声明 了 成 员 变量 且 没有 声明 
任何 虚 成 员 函 数 ， 但 是 有 些 继 承 类 却 声明 了 虚 成 员 函 数 ， 那 么 每 个 虚 成 员 函 数 调用 都 会 
在 this 指针 上 加 上 一 个 偏 移 量 来 得 到 虚 函 数 表 指 针 的 地 址 。 确 保 在 这 个 基 类 中 至 少 有 一 个 
成 员 函 数 ， 可 以 强制 虚 函 数 表 指 针 出 现在 偏 移 量 为 0 的 位 置 上 ， 这 有 助 于 产生 更 高 效 的 代 
码 。 


而 析 构 函数 则 是 最 佳 候选。 如 果 这 个 基 类 有 继承 类 ， 它 就 必须 是 虚 函 数 。 在 类 实例 的 生命 
周期 中 析 构 函数 只 会 被 调用 一 次 ， 因 此 只 要 不 是 那些 在 程序 中 会 被 频繁 地 构造 和 析 构 的 非 
常 小 的 类 (而 且 通 常情 况 下 ， 儿 平 不 会 让 这 些小 的 类 去 继承 子 类 )， 将 其 设置 为 虚 函 数 后 
产生 的 开销 是 最 小 的 。 

这 看 似 是 非 常 罕 见 的 情况 ， 不 需要 太 过 关注 ， 不 过 我 参与 过 的 几 个 项 目 中 都 存在 这 种 情 
况 : 在 重要 类 层次 的 基 类 中 有 引用 计数 、 事 务 ID 或 者 其 他 类 似 的 变量 。 这 个 基 类 对 可 能 

继承 它 的 类 没有 任何 了 解 。 通 常 ， 类 层次 关系 中 的 第 一 个 类 都 是 一 个 声明 了 一 组 虚 成 员 函 
数 的 抽象 基 类 。 基 类 肯定 知道 的 一 件 事情 就 是 实例 最 终 会 被 销毁 。 







































































7.3 优化 表达 式 


在 语句 级 别 下 面 是 涉及 基本 数据 类 型 (整数 、 浮 点 类 型 和 指针 ) 的 数学 计算 。 这 也 是 最 后 
的 优化 机 会 。 如 果 一 个 热点 函数 中 只 有 一 条 表达 式 ， 那 么 它 可 能 是 唯一 的 优化 机 会 。 


























停 下 来 思考 
现代 编译 器 非常 善于 优化 涉及 基本 数据 类 型 的 表达 式 。 从 其 他 所 有 方面 到 性 能 优化 ， 
它们 都 非常 擅长 。 但 是 它们 不 够 勇敢 。 只 有 当 它 们 能 够 确保 改动 不 会 影响 程序 行为 时 ， 
才 会 进行 优化 表达 式 。 
开发 人 员 尽 管 没有 编译 器 那么 细致 ， 但 是 比 编译 器 更 聪明 。 开 发 人 员 能 够 优化 那些 编 
译 器 无 法 确定 优化 是 否 安全 的 代码 ， 因 为 开发 人 员 可 以 推断 设计 和 在 其 他 代码 模块 中 
定义 的 函数 的 意图 ， 而 编译 器 则 看 不 见 这 些 。 
因此 ， 在 这 种 非常 罕见 的 情况 下 ， 开 发 人 员 可 以 比 编译 器 做 得 更 好 。 
优化 表达 式 在 每 次 只 执行 一 条 指令 的 小 型 处 理 器 上 有 很 好 的 效果 。 在 桌面 级 的 具有 多 
段 流 水 线 的 处 理 器 中 ， 虽 然 也 可 以 测试 到 有 改进 效果 ， 但 并 不 明显 。 因 此 ， 并 不 太 值 
得 在 这 里 投入 大 量 精 力 进行 优化 。 只 有 在 那些 必须 通过 热点 循环 或 者 函数 再 最 后 提升 
一 点 性 能 的 极其 罕见 的 情况 下 才 需 要 这 么 做 。 











7.3.1 简化 表达 式 
C++ 会 严格 地 以 运算 符 的 优先 级 和 可 结合 性 的 顺序 来 计算 表达 式 。 只 有 像 ((a*b)+(axc)) 
这 样 书写 表达 式 时 才 会 进行 axb+axc 的 计算 ， 因 为 C++ 的 优先 级 规则 规定 乘法 的 优先 级 高 
于 加 法 。C++ 编译 器 绝对 不 会 使 用 分 配 律 将 表达 式 重新 编码 为 像 a*(b+c) 这 样 的 更 高 效 的 
形式 。 只 有 像 ((a+b)+c) 这 样 书写 表达 式 才 会 进行 atbtc 的 计算 ， 因 为 + 运算 符 具 有 左 结 
合 性 。 编 译 器 绝对 不 会 重 写 表 达 式 为 (at(b+c))， 尽 管 在 进行 整数 和 实数 数学 计算 时 其 结 
果 并 不 会 发 生 改 变 。 
C++ 之 所 以 让 程序 员 手 动 优化 表达 式 ， 是 因为 C++ 的 int 类 型 的 模 运 算 并 非 是 整数 的 数学 
运算 ，C++ 的 float 类 型 的 近似 计算 也 并 非 真 正 的 数学 运算 。C++ 必须 给 予 程序 员 足 够 的 
权力 来 清晰 地 表达 他 的 意图 ， 否 则 编译 器 会 对 表达 式 进 行 重 排序 ， 从 而 导致 控制 流程 发 生 
各 种 变化 。 这 意味 着 开发 人 员 必 须 尽 可 能 使 用 最 少 的 运算 符 来 书写 表达 式 。 
用 于 计算 多 项 式 的 霍 纳 法 则 (Horner Rule) 证 明了 以 一 种 更 高 效 的 形式 重 写 表 达 式 有 多 么 
厉害 。 尽 管 大 多 数 C++ 开发 人 员 并 不 会 每 天 都 进行 多 项 式 计 算 ， 但 是 我 们 都 很 熟悉 它 。 
多 项 式 y= ac +p2+cr+d 在 C++ 中 可 以 写 为 : 

y = a*x*x*x + Db*x*x + C*x + d; 
这 条 语句 将 会 执行 6 次 乘法 运算 和 3 次 加 法 运算 。 我 们 可 以 根据 替 纳 法 则 重复 地 使 用 分 配 
律 来 重 写 这 条 语句 : 


y = (((a*x + b)*x) + c)*x + d; 
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这 条 优化 后 的 语句 只 会 执行 3 次 乘法 运算 和 3 次 加 法 和 运算。 通常 ， 霍 纳 法 则 可 以 将 表达 式 
的 乘法 运算 次 数 从 n(n-l) 减少 为 mm， 其 中 二 是 多 项 式 的 维 数 。 





a / b * c: 警示 故事 
C++ 之 所 以 不 会 重 排序 算术 表达 式 是 因为 这 非常 危险 。 数 值 分 析 是 一 个 非常 大 的 主题 ， 
围绕 这 个 主题 可 以 写 出 一 本 书 。 下 面 是 一 个 我 们 容易 弄 错 的 例子 。 


如 果 表 达 式 被 写作 ((a / b) * c)， 那 么 C++ 编译 器 会 a / b * c 这 样 进行 计算 。 但 这 
个 表达 式 存在 一 个 问题 。 如 果 a、b 和 c 部 是 整数 类 型 ， 那 么 a/b 的 结果 将 不 精确 。 所 
以 ， 如 果 a = 2、b=3 且 c=10, 那么 a / b * Cc 的 结果 就 是 2/3* 10=0， 而 我 们 
所 期 待 的 结果 是 6。 问 题 在 于 a / b 的 非 精 确 性 被 放大 了 <c 倍 ， 导 致 得 出 了 一 个 错 得 
离谱 的 结果 。 精 通 数学 的 开发 人 员 可 能 会 将 表达 式 修 改 为 c* a / b， 这 样 编译 器 在 计 
算 时 就 像 是 给 表达 式 加 上 括号 ， 使 其 变 为 ((c * a) / b)， 然 后 得 出 结果 2* 10/3=6。 
问题 解决 了 ， 对 吗 ? 实际 上 并 没有 。 如 果 先 做 乘法 ， 那 么 存在 着 溢出 的 风险 。 如 果 a= 
86 400 (一 天 中 的 秒 数 )、b = 90 000 (视频 采样 中 使 用 的 常量 ) 且 c= 1000 000 (一 秒 
中 的 微 秒 数 ) ， 那 么 表达 式 Cc_ * a 会 溢出 32 位 无 符号 数据 类 型 的 范围 。 原 来 的 表达 式 
虽然 计算 误差 很 大 ， 但 是 却 比 修改 后 的 表达 式 要 更 好 。 


开发 人 员 是 唯一 必须 知道 表达 式 的 写法 、 它 的 参数 的 数量 级 并 对 其 输出 结果 负责 的 人 。 
编译 器 不 会 帮助 我 们 完成 这 项 任务 ， 这 也 是 它 不 会 优化 表达 式 的 原因 。 











7.3.2 ”将 常量 组 合 在 一 起 

编译 器 可 以 帮 们 做 的 一 件 事 是 计算 常量 表达 式 。 请 看 下 面 这 个 表达 式 
seconds = 24 * 60 * 60 * days; 

或 是 
seconds = days * (24 * 60 * 60); 

编译 器 会 计算 表达 式 中 的 常量 部 分 ， 产生 类 似 下 面 的 表达 式 .: 


seconds = 86400 * days; 






































但 是 ， 如 果 程 序 员 这 样 写 : 

seconds = 24 * days * 60 * 60; 
编译 器 只 能 在 运行 时 进行 乘法 计算 了 。 
因此 ， 我 们 应 当 总 是 用 括号 将 常量 表达 式 组 合 在 一 起 ， 或 是 将 它们 放 在 表达 式 的 左 端 ， 或 
者 更 好 的 一 种 的 做 法 是 ， 将 它们 独立 出 来 初始 化 给 一 个 和 常量， 或 者 将 它们 放 在 一 个 常量 表 
达 式 (constexpr) 函数 中 (如 果 你 的 编译 器 支持 Ct+11 的 这 一 特性 )。 这 样 编译 器 能 够 在 
编译 时 高 效 地 计算 常量 表达 式 。 












































7.3.3 ”使 用 更 高 效 的 运算 符 

有 些 数学 运算 符 在 计算 时 比 其 他 运算 符 更 低 效 。 例 如 ， 如 今 ， 所 有 处 理 器 (除了 最 小 型 的 
处 理 器 ) 都 可 以 在 一 个 内 部 时 钟 周期 中 执行 一 次 位 移 或 是 加 法 操作 。 某 些 专业 的 数字 信和 号 
处 理 器 芯片 有 单 周 期 乘法 器 ， 但 是 对 于 PC， 乘 法 是 一 种 类 似 于 我 们 在 小 学 学 到 的 十 进 制 
乘法 的 从 代 计算 。 除 法 是 一 种 更 复杂 的 从 代 处 理 。 这 种 开销 结构 为 性 能 优化 提供 了 机 会 。 
例如 ， 整 数 表 达 式 x*4 可 以 被 重 编码 为 更 高 效 的 x<<2。 任 何 差不多 的 编译 器 都 可 以 优化 这 
个 表达 式 。 但 是 如 果 表 达 式 是 x*y 或 x*func() 会 怎样 呢 ? 许多 情况 下 ， 编 译 器 都 无 法 确定 
y 或 func() 的 返回 值 一 定 是 2 的 怖 。 这 时 就 需要 依靠 程序 员 了 。 如 果 其 中 一 个 参数 可 以 用 
虽 数 替换 掉 2 的 需 ， 那 么 开发 人 员 就 可 以 重 写 表 达 式 ， 用 位 移 运算 替代 乘法 运算 。 

另 一 种 优化 是 用 位 移 运 算 和 加 法 运算 替代 乘法 。 例 如 ， 整 数 表达 式 x*9 可 以 被 重 写 为 
xx8+xx*1， 进 而 可 以 重 写 为 (x<<3)+x。 当 常量 运算 子 中 没有 许多 置 为 1 的 位 时 ， 这 种 优化 最 
有 效 ， 因 为 每 个 置 为 1 的 位 都 会 扩展 为 一 个 位 移 和 加 法 表达 式 。 在 拥有 指令 缓存 和 流水 线 
执行 单元 的 桌面 级 或 是 手持 级 处 理 器 上 ， 以 及 在 长 乘法 被 实现 为 子 例 程 调用 的 小 型 处 理 器 
上 ， 这 种 优化 同样 有 效 。 与 所 有 性 能 优化 方法 一 样 ， 我 们 必须 测试 性 能 结果 来 确保 在 某 种 
处 理 器 上 它 确 实 提高 了 性 能 ， 但 通常 情况 下 确实 都 是 这 样 的 。 


7.3.4 使 用 整数 计算 替代 浮 点 型 计算 

浮 点 型 计算 的 开销 是 昂贵 的 。 浮 点 数值 内 部 的 表现 比较 复杂 ， 它 带 有 一 个 整数 型 尾数 、 一 
个 独立 的 指数 以 及 两 个 符号 。PC 上 实现 了 浮 点 型 计算 单元 的 硬件 可 能 占 到 芯片 面积 的 
20%。 有 些 多 核 处 理 器 会 共享 一 个 单独 的 浮 点 型 计算 单元 ， 但 是 却 在 每 个 核心 上 都 有 多 个 
独立 的 整数 计算 单元 。 

即使 是 在 具有 浮 点 型 计算 硬件 单元 的 处 理 器 上 ， 即 使 对 计算 结果 的 整数 部 分 进行 了 舍 入 处 
理 ， 而 不 是 截取 处 理 ， 计 算 整数 结果 仍然 能 够 比 计算 浮 点 型 结果 快 至 少 10 倍 。 如 果 是 在 
没有 浮 点 型 计算 硬件 单元 的 小 型 处 理 器 上 用 函数 库 进行 浮 点 型 计算 ， 那 么 整数 的 计算 速度 
会 快 得 更 多 。 但 是 我 们 仍然 可 以 看 到 ， 有 些 开发 人 员 在 明明 可 以 使 用 整数 计算 时 ， 却 使 用 
浮 点 型 计算 。 

代码 清单 7-16 中 展示 了 我 遇 到 得 最 多 的 进行 伟人 操作 的 代码 。 它 将 整数 参数 转化 为 浮 点 类 
型 ， 然 后 进行 除法 操作 ， 最 后 对 结果 进行 伟人 操作 。 


代码 清单 7-16 ”对 浮 点 类 型 进行 伟人 操作 得 到 整数 值 

unsigned q = (unsigned)round((double)n / (double)d)); 
在 我 的 PC 上 对 该 处 理 重复 执行 1 亿 次 的 测试 结果 是 耗 时 3125 毫秒 。 
要 想得到 含 人 后 的 整数 部 分 ， 需 要 先知 道 除 法 结果 的 余数 。 余 数 的 取 值 范围 是 0 至 4-1， 
其 中 a 是 除数 。 如 果 余 数 大 于 或 等 于 除数 的 二 分 之 一 ， 那 么 整数 部 分 应 当 向 上 舍 入 。 对 于 
有 符号 整数 来 说 ， 这 个 公式 会 复杂 一 点 点 。 
C++ 中 提供 了 来 自 C 运 行 时 库 的 1div() 函数 ， 它 会 生成 一 种 同时 包含 整数 和 余数 的 结构 。 
代码 清单 7-17 展示 了 一 个 使 用 Ldiv() 函数 对 除法 结果 进行 舍 入 的 函数 。 
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代码 清单 7-17 使 用 Ldiv() 对 整数 除法 进行 舍 入 
inline unsigned divO(unsigned n, unsigned d) { 
auto r = ldiv(n, d); 
return (r.rem >= (d >> 1)) ? r.quot + 1 : r.quot; 


} 


这 个 函数 并 不 完美 。tdiv() 接收 整数 类 型 的 参数 ， 但 是 调用 时 传递 的 确 是 signed 或 
unsigned。 当 两 个 参数 都 是 正 数 时 ，Ldiv() 认为 它们 是 整数 ， 可 以 得 到 正确 的 结果 。 对 
div9() 的 测试 结果 是 执行 1 亿 次 耗 时 435 毫秒 ， 比 原来 的 浮 点 型 版 本 快 了 6 倍 。 


代码 清单 7-18 展示 了 一 个 计算 两 个 无 符号 参数 的 商 在 舍 入 后 的 结果 的 函数 。 
代码 清单 7-18 ”对 整数 除法 的 结果 舍 入 


inline unsigned divi(unsigned n, unsigned d) { 
unsigned q = n / d; 
unsigned r =n% di 
return r >= (d>> 1) ?q+1:q; 























div1() 会 计算 商 和 余数 。(d >> 1) 是 d/2 的 一 种 高 效 但 威力 稍 弱 的 形式 ， 它 会 计算 出 除数 
d 的 二 分 之 一 。 如 果 余 数 大 于 或 等 于 除数 的 一 半 ， 那 么 就 会 对 商 加 1。 编 译 器 所 进行 的 一 
项 优化 是 这 个 函数 成 功 的 关键 。x86 机 器 对 两 个 整数 进行 除法 的 指令 会 同时 得 到 商 和 余数 。 
Visual C++ 编译 器 非常 聪明 ， 当 执行 这 段 代 码 时 它 只 会 执行 一 次 这 个 指令 。 与 浮 点 型 计算 
测试 一 样 ， 我 对 这 个 函数 也 进行 了 相同 的 测试 ， 结 果 是 耗 时 135 毫秒 ， 速 度 是 原来 的 22 
审 ， 优 化 结果 令 人 满意 。 

代码 清单 7-19 是 另外 一 种 对 unsigned 舍 入 的 方法 ， 它 更 快 ， 但 也 有 代价 。 


代码 清单 7-19 ”对 整数 除法 结果 舍 入 
inline unsigned div2(unsigned n, unsigned d) { 
return (n+ (d >> 1)) / d; 



































3 


div2() 在 进行 除法 之 前 ， 在 分 子 n 上 加 上 了 除数 d 的 二 分 之 一 。div2() 的 缺点 在 于 ， 如 果 
分 子 很 大 ,那么 n + (d >> 1) 可 能 会 溢出 。 如 果 开 发 人 员 知道 参 数 的 数量 级 没有 问题 ， 那 
么 就 可 以 使 用 这 个 非常 高 效 的 div2() 函数 。 对 其 进行 测试 的 结果 是 耗 时 102 毫秒 〈 比 那个 
常用 的 译 点 型 计算 版 本 快 了 30 倍 )。 


7.3.5” 双 精度 类 型 可 能 会 比 浮 点 型 更 快 


在 我 的 这 PC 上 运行 Visual C++ 时 ， 双 精度 类 型 的 计算 速度 比 浮 点 类 型 的 计算 速度 更 快 。 
首先 我 会 向 读者 展示 测试 结果 ， 接 下 来 再 推测 为 什么 会 出 现 这 种 现象 。 


下 面 这 段 代 码 会 循环 计算 物体 的 下 落 距 离 ， 这 是 一 段 典 型 的 浮 点 型 计算 : 















































float d, t, a = -9.8f, vO = 0.0f, do = 100.0f; 
for (t = 0.0; t < 3.01f; t += 0.1f) { 
d = a*t*t + vO*t + d0; 


运行 这 段 循环 1000 万 次 耗 时 1889 毫秒 。 
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将 变量 和 常量 类 型 修改 为 双 精 度 后 的 代码 如 下 : 

double d, t, a= -9.8, vO = 0.0, dO = 100.0; 

for (t = 0.0; t < 3.01; t += 0.1) { 

d = a*t*t + vO*t + d0; 

运行 此 版 本 的 循环 1000 万 次 只 耗 时 989 毫秒 ， 几 乎 比 之 前 快 了 一 倍 。 
为 什么 会 出 现 这 种 现象 呢 ? Visual C++ 生成 的 浮 点 型 指令 会 引用 老式 的 “x87 FPU 
coprocessor” 寄 存 器 栈 。 在 这 种 情况 下 ， 所 有 的 浮 点 计算 都 会 以 80 位 格式 进行 。 当 单 精度 
float 和 双 精 度 double 值 被 移动 到 FPU 寄存 器 中 时 ， 它 们 都 会 被 加 长 。 对 float 进行 转换 
的 时 间 可 能 比 对 double 进行 转换 的 时 间 更 长 。 


有 多 种 编译 浮 点 型 计算 的 方式 。 在 x86 平台 上 ， 使 用 SSE 寄存 器 允许 直接 以 四 种 不 同 大 
小 完成 计算 。 使 用 了 SSE 指令 的 编译 器 的 行为 可 能 会 与 为 非 x86 处 理 器 进行 编译 的 编译 
絮 不 同 。 


7.3.6 ”用 闭 形式 蔡 代 和 迭代 计算 

C++ 和 位 操作 是 怎样 的 呢 ? C++ 中 丰富 的 计算 和 位 逻辑 运算 符 只 是 将 位 移动 来 移动 去 ， 还 
是 从 设备 寄存 器 和 网 络 包 获得 信息 位 以 及 将 信息 位 放 到 设备 寄存 器 和 网 络 包 的 需求 使 得 
C++ 变 为 今天 这 个 样子 ? 


有 许多 特殊 情况 都 需要 对 置 为 1 的 位 计数 ， 找 到 最 高 有 效 位 ， 确 定 一 个 字 的 奇偶 校 验 位 ， 
确定 一 个 字 的 位 是 否 是 2 的 寡 ， 等 等 。 大 多 数 这 些 问 题 都 可 以 通过 简单 地 遍历 字 中 的 所 有 
位 来 解决 。 这 种 解决 方法 的 时 间 开销 为 0(r)， 其 中 是 字 的 位 数 。 也 可 能 还 有 一 些 效 率 更 
高 的 返 代 解决 方法 。 但 是 对 于 某 些 问 题 ， 还 有 更 快 更 紧凑 的 闭 形 式 解决 方法 : 计算 的 时 间 
开销 为 常量 ， 不 进行 任何 迭代 。 

例如 ， 考 虑 一 个 简单 的 用 于 确定 一 个 整数 是 否 是 2 的 需 的 迭代 算法 。 所 有 这 些 值 都 只 有 1 
个 置 为 1 的 位 ， 因 此 算出 置 为 1 的 位 的 数量 是 一 种 解决 方法 。 代 码 清单 7-20 展示 了 这 种 算 
法 的 一 种 简单 的 实现 。 


代码 清单 7-20 ”判断 一 个 整数 是 否 是 2 的 需 的 进 代 算法 的 一 种 实现 
inline bool is power 2 iterative(unsigned n) { 
for (unsigned one bits = 0; n != 0; nNn >>= 1) 
if ((n & 1) == 1) 
if (one_bits != 0) 
return false; 
else 
one_bits += 1; 
return true; 



















































































} 
对 这 种 方式 的 测试 结果 是 耗 时 549 毫秒 。 
这 个 问题 同样 有 一 种 闭 形 解决 方法 。 如 果 x 是 2 的 n 阶 笑 ， 那么 它 只 在 第 n 位 有 一 个 置 为 
1 的 位 (以 最 低 有 效 位 作为 第 0 位 ) 。 接 着 ， 我 们 用 x-1 作为 当 置 为 1 的 位 在 第 n-1,…,0 位 
时 的 位 掩 码 ， 那 么 x& Cr-D 等 于 0。 如 果 x 不 是 2 的 需 ， 那 么 它 就 有 不 止 一 个 置 为 1 的 位 ， 
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那么 使 用 x-1 作为 掩 码 计 算 后 只 会 将 最 低 有 效 位 置 为 0，x& (x-1) 不 再 等 于 0。 
代码 清单 7-21 展示 了 一 个 判断 x 是 否 是 2 的 徊 的 闭 形式 的 函数 。 
代码 清单 7-21 判断 一 个 整数 是 否 是 2 的 短 的 闭 形式 


inline bool is power 2 _closed(unsigned n) { 
return ((n != 0) && !(n & (nNn - 1))); 











使 用 这 个 修改 后 的 函数 进行 测试 的 结果 是 耗 时 238 毫秒 ， 比 之 前 的 版 本 快 了 2.3 倍 。 其 
实 还 有 更 快 的 方法 。Rick Regan 在 他 的 网 页 (http://www.exploringbinary.com/ten-ways- 
to-check-if-an-integer-is-a-power-of-two-in-c/) 上 记录 了 10 种 方法 ,而 且 都 附 有 时 间 测 量 


] 
结果 。 
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买 一 本 Hacker’s Delight 
上 节 给 出 了 一 些 高 效 进行 位 操作 的 建议 ， 但 这 只 能 算是 激发 读者 深入 学 习 的 例子 ， 还 
有 其 他 成 百 上 千 的 改善 计算 性 能 的 小 技巧 。 


每 位 对 优化 表达 式 感 兴趣 的 开发 人 员 ， 其 书柜 里 都 应 该 有 一 本 Henry S. Warren, Jf 的 
Hacker x Delighf'， 现 在 它 已 经 发 行 了 第 二 版 了 。 哪 怕 你 对 编写 高 效 的 表达 式 只 有 一 丁 
点 儿 兴 趣 ， 阅 读 Hackers Delight 就 像 是 打开 了 你 的 第 一 个 乐高 玩具 箱 或 是 使 用 分 立 元 
件 制作 你 的 第 一 个 电路 一 样 。Warren 同时 还 为 这 本 书 制作 并 维护 了 一 个 网 站 (http:/ 
hackersdelight.org/) ， 上 面 有 很 多 有 趣 的 链接 和 讨论 。 


想 要 免费 了 解 Hackers Delight 一 书 中 的 部 分 内 容 ， 你 可 以 在 互联 网 上 浏览 MIT 人 工 
智能 实验 室 Memo 239 一 一 它 也 被 亲切 地 叫 作 HAKMEM  。HAKMEM 诞生 于 最 快 的 处 
理 器 的 速度 比 现在 的 手机 处 理 器 还 慢 10 000 们 的 年 代 ， 它 是 Hacker 3 Delight 一 书 的 
概念 上 的 原型 ， 里 面 介绍 了 许多 位 操作 的 技巧 。 














所 ry Ny ~ 
7.4 优化 控制 流程 惯用 法 
如 在 2.2.7 节 中 所 讲 过 的 ， 由 于 当 指 令 指针 必须 被 更 新 为 非 连续 地 址 时 在 处 理 器 中 会 发 生 
流水 线 停顿 ， 因 此 计算 比 控制 流程 更 快 。C++ 编译 器 会 努力 地 减少 指令 指针 更 新 的 次 数 。 
了 解 这 些 知识 有 助 于 我 们 编写 更 快 的 代码 。 






































7.4.1 用 switch 替 代 if-else if-else 


if-else if-else 语句 中 的 流程 控制 是 线性 的 首先 测试 if 条 件 ， 如 果 结 果 为 真 ， 执 行 第 
一 个 代码 块 ， 否 则 ， 接 着 测试 else if 条 件 ， 如 果 为 真 ， 则 执行 该 条 件 所 匹配 的 代码 块 。 











注 4: 中 文 版 《高 效 程序 的 奥秘 》， 汉 速 译 ， 机 械 工业 出 版 社 ，2004 年 5 月 。 一 一 译 者 注 
注 5: Beeler, Michael, Gosper, R. William, and Schroeppel, Rich, “HAKMEM,” Memo 239, Artificial Intelligence 
Laboratory, Massachusetts Institute of Technology, Cambridge, MA, 1972. 
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如 果 测试 一 个 变量 的 值 n 次 ， 那 么 需要 个 if-then-else if 语句 块 。 如 果 所 有 的 条 件 为 
真 的 概率 都 是 一 样 的 ， 那 么 if-then-etse if 将 会 进行 O0D 次 判断 。 如 果 这 段 代码 执行 得 
非常 频繁 ， 例 如 在 事件 分 发 代码 或 是 指令 分 发 代码 中 ， 那 么 开销 将 会 显著 地 增加 。 

switch 语句 也 会 测试 一 个 变量 是 否 等 于 这 个 值 ， 但 是 由 于 swttch 语句 的 形式 比较 特殊 ， 
它 用 swttch 的 值 与 一 系列 常量 进行 比较 ， 这 样 编译 器 可 以 进行 一 系列 有 效 的 优化 。 

一 种 常见 的 情况 是 被 测试 的 常量 是 一 组 连续 值 或 是 近似 一 组 连续 值 ， 这 时 swttch 语句 会 被 
编译 为 junp 指令 表 ， 其 索引 是 要 测试 的 值 或 是 派生 于 要 测试 的 值 的 表达 式 。swttch 语句 
会 执行 一 次 索引 操作 ， 然 后 跳 转 到 表 中 的 地 址 。 无 论 有 多 少 种 要 比较 的 情况 ， 每 次 比较 处 
理 的 开销 都 是 0(1)。 我 们 在 程序 中 不 必 对 各 种 要 比较 的 情况 排序 ， 因 为 编译 器 会 排序 junp 
令 表 。 

如 果 这 些 被 测试 的 常量 不 是 连续 值 ， 而 是 互相 之 间 相差 很 大 的 数值 ， 那 么 junp 指令 表 会 
变 得 异常 庞大 ， 难 以 管理 。 编 译 器 可 能 仍然 会 排序 这 些 要 测试 的 常量 并 生成 执行 二 分 查 
找 的 代码 。 对 于 一 个 会 与 个 值 进行 比较 的 switch 语句 ， 这 种 查找 的 最 差 情况 的 开销 是 
O(logn)。 在 任何 情况 下 ， 编 译 器 编译 swttch 语句 后 产生 的 代码 都 不 会 比 编译 if-then 语 
名 后 产生 的 代码 的 速度 慢 。 

有 时 ，if-etsetf-etse 逻辑 的 某 个 条 件 分 支 的 可 能 性 非常 大 。 在 这 种 情况 下 ， 如 果 首 先 测 
试 最 可 能 出 现 的 条 件 的 话 ，if 语句 的 捧 销 性 能 可 能 会 接近 常量 。 


7.4.2 用 虚 函 数 替 代 switch 或 if 

在 C++ 出 现 之 前 ， 如 果 开 发 人 员 想 要 在 程序 中 引入 多 态 行为 ， 那 么 他 们 必须 编写 一 个 带 有 
标识 变量 的 结构 体 或 是 联合 体 ， 然 后 通过 这 个 标识 变量 来 辨别 出 当前 使 用 的 是 哪个 结构 体 
或 是 联合 体 。 程 序 中 应 该 会 有 很 多 类 似 下 面 的 代码 : 


if (p->animalType == TIGER) { 
tiger_pounce(p->tiger); 






















































































else if (p->animalType == RABBIT) { 
rabit_hop(p->rabbit); 


else if (...) 
经 验 丰富 的 开发 人 员 都 知道 这 个 反 模 式 是 面向 对 象 编程 的 典型 代表 。 但 是 新 手 开 发 人 员 要 
想 熟练 掌握 面向 对 象 思想 是 需要 时 间 的 。 我 在 很 多 软件 产品 中 看 到 过 下 面 这 样 不 纯粹 的 面 
向 对 象 的 C++ 代码 : 


AnimaL: :move() { 
if (this->animalType == TIGER) { 
pounce(); 

















} 
else if (this->animalType == RABBIT) { 
hop(); 


J 
else if (...) 
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从 性 能 优化 的 角度 看 ， 这 段 代 码 的 问题 在 于 使 用 了 if 语句 来 识别 对 象 的 继承 类 型 。C++ 
类 已 经 包含 了 一 种 机 制 来 实现 此 功能 ， 虚 成 员 函 数 和 作为 识别 器 的 虚 函 数 表 指 


虚 函 数 调用 会 通过 索引 虚 函 数 表 得 到 虚 函 数 体 的 地 址 。 这 个 操作 的 开销 总 是 常量 时 间 。 因 
此 ， 基 类 中 的 虚 成 员 函 数 move() 会 被 继承 类 中 表示 各 种 动物 的 pounce、hop 或 swim 等 国 
数 重 写 。 


7.4.3 ”使 用 无 开销 的 异常 处 理 

异常 处 理 是 应 当 在 设计 阶段 就 进行 优化 的 项 目 之 一 。 错 误 传播 方法 的 设计 会 影响 程序 中 的 
每 一 行 代码 ， 因 此 改造 程序 的 异常 处 理 的 代价 可 能 会 非常 昂贵 。 可 以 说 ， 使 用 异常 处 理 可 
以 使 程序 在 通常 运行 时 更 加 快速 ， 在 出 错时 表现 得 更 加 优秀 。 

有 些 开 发 人 员 对 C++ 的 异常 处 理 持 有 怀疑 态度 。 一 般 认为 ， 异常 处 理会 使 程序 变 得 更 加 庞 
大 和 更 加 慢 ， 因 此 关闭 编译 器 的 异常 处 理 开 关 是 一 项 优化 。 


其 实 真相 比较 复杂 。 确 实 ， 如 果 程 序 不 使 用 异常 处 理 ， 那 么 关闭 编译 器 的 异常 处 理 开 
关 可 以 使 得 程序 变 得 更 小 ， 而 且 可 能 更 快 。Jeff Preshing 在 他 的 博客 (http://preshing. 
com/20110807/the-cost-of-enabling-exception-handling/) 中 发 表 了 文章 ， 说 测量 到 性 能 差距 
在 1.4% 和 49% 之 间 。 但 是 不 清楚 不 使 用 异常 处 理 的 程序 的 运行 状况 如 何 。C++ 标准 库 中 
的 所 有 容器 都 使 用 new 表达 式 来 抛 出 异常 。 许 多 其 他 库 ， 包 括 本 书 中 会 讲解 的 流 WO 和 并 
发 库 〈 请 参见 第 12 章 ) 都 会 殷 出 异常 。dynamic_cast 运算 符 也 会 抛 出 异常 。 如 果 关 掉 了 
异常 处 理 ， 无 法 确定 当 程序 遇 到 异常 被 抛 出 的 情况 时 会 如 何 。 

如 果 程 序 不 抛 出 异常 ， 它 可 能 会 完全 忽略 错误 码 。 那 么 在 这 种 情况 下 ， 开 发 人 员 就 会 得 到 
报应 了 。 另 外 一 种 情况 是 ， 程 序 必须 在 各 层 函 数 调 用 之 间 耐 心地 、 小 心地 传递 错误 码 ， 然 
后 在 调用 库 函 数 的 地 方 将 错误 码 从 一 种 形式 转换 为 另 一 种 形式 并 相应 地 释放 资源 。 而 且 ， 
无 论 每 次 运算 是 成 功 还 是 失败 ， 都 不 能 遗漏 这 些 处 理 。 


如 果 有 异常 ， 处 理 错 误 的 部 分 开销 就 被 从 程序 执行 的 正常 路 径 转 移 至 错误 路 径 上 。 除 此 之 
外 ， 编 译 器 会 通过 调用 在 抛 出 异常 和 try/catch 代码 块 之 间 的 执行 路 径 上 的 所 有 自动 变量 
的 析 构 函数 ， 自 动 地 回收 资源 。 这 简化 了 程序 执行 的 正常 路 径 的 逻辑 ， 从 而 提升 性 能 。 

在 C++ 的 早期 每 个 栈 帧 都 包含 一 个 异常 上 下 文 : 一 个 指向 包含 所 有 被 构建 的 对 象 的 链 
表 的 指针 ， 因 此 当 异 常 穿 过 栈 帧 被 抛 出 时 ， 这 些 对 象 也 必须 被 销毁 。 随 着 程序 的 执行 ， 这 
个 上 下 文 会 被 动态 地 更 新 。 这 并 非 大 家 所 希望 看 到 的 ， 因 为 这 导致 了 在 程序 执行 的 正常 路 
径 上 增加 了 运行 时 开销 。 这 可 能 会 是 高 开销 的 异常 处 理 之 源 。 后 来 出 现 了 一 种 新 的 实现 方 
式 ， 它 的 原理 是 将 那些 需要 被 销毁 的 对 象 映射 到 指令 指针 值 上 。 除 非 抛 出 了 异常 ， 否 则 这 
种 机 制 不 会 发 生 任 何 运行 时 开销 。Visual Studio 会 在 构建 64 位 应 用 程序 时 使 用 这 种 无 开销 
机 制 ， 而 在 构建 32 位 应 用 程序 时 则 会 使 用 旧 机 制 。Clang 则 提供 了 一 个 编译 器 选项 "让 开 
发 人 员 选 择 使 用 哪 种 机 制 。 


不 要 使 用 异常 规范 
异常 规范 是 对 国 数 声明 的 修饰 ， 指 出 函数 可 能 会 抛 出 什么 异常 。 不 带 有 异常 规范 的 函数 抛 
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注 6: Clang 可 以 使 用 /EH 指定 异常 处 理 模 型 。 一 一 译 者 注 
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出 异常 可 能 不 会 有 任何 惩罚 。 而 带 有 异常 规范 的 函数 可 能 只 会 抛 出 在 规范 中 列 出 的 异 
但 是 如 果 它 抛 出 了 其 他 异常 ， 那 么 程序 会 被 terminate() 无 条 件 地 立即 终止 。 


异常 规范 有 两 个 问题 。 一 个 问题 是 开发 人 员 很 难 知道 被 调用 的 函数 可 能 会 抛 出 什么 异 
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特别 是 在 使 用 不 熟悉 的 库 时 。 这 使 得 使 用 了 异常 规范 的 程序 变 得 脆弱 且 可 能 会 突然 停止 。 
第 二 个 问题 是 异常 规范 对 性 能 有 负面 影响 。 程 序 必 须要 检查 被 抛 出 的 异常 ， 就 像 是 每 次 对 











带 有 异常 规范 的 函数 的 调用 都 进入 了 一 个 try/catch 代码 块 一 样 。 
C++11 弃 用 了 传统 的 异常 规范 。 























TS 





在 C++11l 中 引入 了 一 种 新 的 异常 规范 ， 称 为 noexcept。 声 明 一 个 函数 为 noexcept 会 告诉 
编译 器 这 个 函数 不 可 能 抛 出 任何 异常 。 如 果 这 个 函数 抛 出 了 异常 ， 那 么 如 同 在 throw() 规 


范 中 一 样 ，terminate() 将 会 被 调用 。 不 过 不 同 的 是 ， 编 译 器 要 求 将 移动 构造 函数 和 移动 
赋值 语句 声明 为 noexcept 来 实现 移动 语义 (请 参见 6.6 市 中 有 关 移 动 语 义 的 讨论 )。 在 这 
些 国 数 上 的 noexcept 规范 的 作用 就 像 是 发 表 了 一 份 声明 ， 表 明 对 于 某 些 对 象 而 言 ， 移 动 语 





义 比 强 异 常安 全 保证 更 重要 。 我 知道 这 非常 星 誉 。 


7.5 ”小 结 








。 除非 有 一 些 因素 放大 了 语句 的 性 能 开销 ， 否 则 不 值得 进行 语句 级 别 的 性 能 优化 ， 因 为 所 





能 带 来 的 性 能 提升 不 大 。 
。 循环 中 的 语句 的 性 能 开销 被 放大 的 倍数 是 循环 的 次 数 。 
。 函数 中 的 语句 的 性 能 开销 被 放大 的 倍数 是 其 在 函数 中 被 调用 的 次 数 。 
。 被 频繁 地 调用 的 编程 惯用 法 的 性 能 开销 被 放大 的 倍数 是 其 被 调用 的 次 数 。 
。 有 些 C++ 语句 (峰值 、 初 始 化 、 函 数 参数 计算 ) 中 包含 了 隐藏 的 国 数 调用 。 
。 调用 操作 系统 的 函数 的 开销 是 昂贵 的 。 
。 一 种 有 效 的 移 除 函 数 调 用 开销 的 方法 是 内 联 函 数 。 



































。 现在 几乎 不 再 需要 PIMPL 编程 惯用 法 了 。 如 今 程序 的 编译 时 间 只 有 发 明 PIMPL 的 那个 




















年 代 的 1% 左右 。 
。 double 计算 可 能 会 比 float 计算 更 快 。 
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一 个 伟大 的 图 书馆 (library ) 是 不 会 有 人 注意 的 ,因为 它 总 在 那里 ， 而 且 总 有 人 们 
所 需要 的 。 





蔽 奇才 仓 , 《小 猫 杜威 》 的 作者 ， 爱 荷 华 州 斯 潘 塞 公共 图 书馆 前 馆 长 

在 性 能 优化 阶段 ， 库 是 一 个 需要 特别 广 意 的 地 方 。 库 提供 了 组 装 程 序 的 基础 。 库 函数 和 类 
常常 被 用 在 艇 套 循环 的 最 底层 ， 因 此 通常 它们 都 是 热点 代码 。 编 译 器 或 是 操作 系统 提供 的 
库 在 使 用 时 非常 高 效 。 而 对 于 各 个 项 目 自己 的 库 ， 则 需要 仔细 地 设计 ， 以 确保 它们 能 够 被 
高 效 地 使 用 。 
本 章 首 先 会 讨论 使 用 C++ 标准 库 的 注意 事项 ， 接 着 讨论 在 设计 自己 的 库 时 的 一 些 性 能 优化 
问题 。 

本 书 重点 讨论 如 何 通 过 调整 函数 来 提高 性 能 。 在 本 章 中 ， 我 将 基于 我 个 人 的 开发 经 验 ， 为 
那些 需要 在 原来 的 设计 上 实现 高 性 能 的 设计 人 员 提供 一 些 建 议 。 尽 管 我 是 在 关于 库 设 计 的 
上 下 文中 讨论 这 些 内 容 ， 但 是 本 章 内 容 也 是 一 个 检查 列表 ， 它 展示 了 优秀 的 C++ 设计 技巧 
对 高 性 能 有 多 大 的 贡献 。 


8.1 优化 标准 库 的 使 用 
Cr+ 为 以 下 常用 功能 提供 了 一 个 简洁 的 标准 库 。 


。 确定 那些 依赖 于 实现 的 行为 ， 如 每 种 数值 类 型 的 最 大 值 和 最 小 值 。 
。 最 好 不 要 在 C++ 中 编写 的 函数 ， 如 strcpy() 和 memmove()。 


























也 


注 1: 也 有 “ 库 ” 的 意思 。 一 一 编者 注 
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。 易于 使 用 但 是 编写 和 验证 都 很 繁琐 的 可 移植 的 超越 函数 (transcendental function)“, 如 正 
弦 函 数 和 余弦 函数 、 对 数 函 数 和 适 函 数 、 随 机 数 函 数 ， 等 等 。 

。 除了 内 存 分 配 外 ， 不 依赖 于 操作 系统 的 可 移植 的 通用 数据 结构 ， 如 字符 串 、 链 表 和 表 。 

。 可 移植 的 通用 数据 查找 算法 、 数 据 排序 算法 和 数据 转换 算法 。 

。 以 一 种 独立 于 操作 系统 的 方式 与 操作 系统 的 基础 服务 相 联 系 的 执行 内 存 分 配 、 操 作 线 程 、 
管理 和 维护 时 间 以 及 流 IO 等 任务 的 函数 。 考 虑 到 兼容 性 ， 这 其 中 包含 了 一 个 继承 自 C 
编程 语言 的 函数 库 。 

C++ 标准 库 中 的 许多 部 分 都 包含 了 可 以 产生 极其 高 效 的 代码 的 模板 类 和 函数 。 


8.1.1 C++ 标 准 库 的 哲学 

为 了 跟 上 作为 系统 编程 语言 的 目标 ，C++ 提供 了 有 些 “ 斯 巴 达 式 ” 的 标准 库 。 这 个 标准 
库 需 要 简单 、 通 用 并 且 足 够 快速 。 哲 学 上 ，C++ 标准 库 之 所 以 提供 这 些 函数 和 类 ， 是 因 
为 要 么 无 法 以 其 他 方式 提供 这 些 函 数 和 类 ， 要 么 这 些 函 数 和 类 会 被 广泛 地 用 于 多 种 操作 
系统 上 。 

C++ 的 这 种 实现 方法 的 优点 包括 C++ 程序 能 够 运行 于 没有 提供 任何 操作 系统 的 硬件 之 上 ， 
以 及 在 适当 时 程序 员 能 够 选择 一 种 专业 的 适用 于 某 种 操作 系统 特性 的 库 ， 或 是 在 要 实现 平 
台独 立 性 时 使 用 一 种 跨 平 台 的 库 。 


相 比 之 下 ， 包 括 C# 和 Java 在 内 的 部 分 编程 语言 提供 了 包括 视窗 用 户 接口 框架 、Web 服务 
器 、 套 接 字 网 络 和 其 他 大 型 子 系统 等 在 内 的 大 量 标准 库 。 提 供 整体 标准 库 的 优点 在 于 ， 开 
发 人 员 只 需 学 习 如 何在 所 有 支持 的 平台 上 让 一 套 库 高 效 运行 就 可 以 了 。 但 是 这 样 的 库 都 对 
操作 系统 有 要 求 (有 时 是 厂商 有 意 为 之 )。 随 着 编程 语言 提供 的 这 些 库 还 代表 着 一 个 最 小 
共通 功能 的 集合 ， 它 们 没有 原生 视窗 系统 或 是 任何 特定 操作 系统 的 联网 能 力 那 么 强大 。 
此 它们 会 在 某 种 程度 上 限制 习惯 了 某 种 特定 操作 系统 的 原生 能 力 的 程序 员 。 


8.1.2 ”使 用 C++ 标准 库 的 注意 事项 


尽管 下 面 的 讨论 是 针对 C++ 标准 库 的 ， 但 它 同样 适用 于 标准 Linux 库 、POSIX 库 或 是 其 他 
任何 被 广泛 使 用 的 跨 平 台 库 。 在 使 用 上 的 问题 包括 如 下 这 些 。 
标准 库 的 实现 中 有 bug 
尽管 在 软件 开发 中 bug 是 不 可 避免 的 ， 但 是 就 连 经 验 丰 富 的 开发 人 员 都 可 能 没有 在 标 
准 库 代码 中 发 现 过 bug。 他 们 可 能 会 因此 认为 标准 库 的 各 种 不 同 实现 都 坚 如 殉 石 。 不 
过 ， 我 很 遗憾 要 将 他 们 从 这 个 美梦 中 叫 醒 。 在 编写 本 书 的 过 程 中 ， 我 就 遇 到 了 几 个 标 
准 库 bug。 
经 典 的 “Hello, World!” 程 序 应 该 很 容易 如 预期 的 那样 运行 起 来 。 不 过 ， 性 能 优化 将 开 
发 人 员 带 到 了 标准 库 的 后 巷 和 黑暗 角落 中 ， 在 这 些 地 方 潜伏 着 bug 的 可 能 性 最 大 。 性 能 
优化 开发 人 员 必 须 时 刻 做 好 失望 的 准备 ， 因 为 经 常会 出 现 这 样 的 情况 ， 本 来 让 人 信心 满 




































































































































































注 2: 超越 函数 指 的 是 变量 之 间 的 关系 不 能 用 有 限 次 加 、 减 、 乘 、 除 、 乘 方 、 开 方 运算 表示 的 函数 。 
一 一 译 者 注 
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满 的 性 能 优化 手段 无 法 实现 ， 或 是 性 能 优化 手段 适用 于 一 种 编译 器 却 在 另 一 种 编译 器 上 
出 错 。 
读者 可 能 会 问 :“ 在 已 有 30 多 年 历史 的 代码 中 怎么 可 能 还 存在 着 bug 呢 ? ”一 个 原因 是 
标准 库 在 这 30 年 间 一 直 在 进化 。 库 的 定义 和 实现 代码 一 直 在 变化 中 。 它 们 并 非 是 具有 
30 年 历史 的 代码 。 另 外 ， 标 准 库 与 编译 器 是 单独 维护 的 ， 编 译 器 中 也 可 能 存在 bug。 对 
于 GCC， 标 准 库 的 维护 者 是 志愿 者 。 对 于 微软 的 Visual C++， 标 准 库 是 购买 自 第 三 
的 组 件 ， 它 的 发 布 计划 既 与 Visual C++ 的 发 布 周期 不 同 ， 也 与 C++ 标准 的 发 布 周期 不 
同 。 标 准 需求 的 改变 、 责 任 的 分 散 、 计 划 问 题 以 及 标准 库 的 复杂 度 都 会 不 可 避免 地 影响 
到 它们 的 质量 。 事 实 上， 更 加 有 趣 的 是 ， 标 准 库 实 现 中 的 bug 竟然 如 此 之 少 。 

标准 库 的 实现 可 能 不 符合 C++ 标准 
可 能 世界 上 根本 就 没有 “符合 标准 的 实现 ”。 在 现实 世界 中 ， 编 译 器 厂商 认为 ， 如 果 他 
们 的 产品 大 部 分 都 贴近 C++ 标准 ， 包 括 其 中 一 些 最 重要 的 特性 ， 那 么 就 可 以 出 售 了 。 


库 的 发 布 计划 与 编译 器 是 不 同 的 ， 而 编译 器 的 发 布 计划 又 与 C++ 标准 不 同 。 在 符合 标 
准 方面 ， 一 个 标准 库 的 实现 可 能 会 领先 或 是 落后 于 编译 器 ， 库 的 一 部 分 也 可 能 会 领先 或 
是 落后 于 另 一 部 分 。 对 于 对 性 能 优化 感 兴趣 的 开发 人 员 而 言 ，C++ 标准 中 的 变化 ， 如 
map 中 新 元 素 的 最 佳 插入 点 (请 参见 10.6.1 节 ) 的 变化 ， 意 味 着 有 些 函 数 的 行为 可 能 会 
让 用 户 大 吃 一 惊 ， 因 为 无 法 记录 或 是 确定 一 个 库 所 符合 的 标准 的 版 本 。 


对 于 某 些 库 ， 编 译 器 可 能 会 有 限制 。 例 如 ， 除 非 编译 器 支持 移动 语义 ， 否 则 库 就 会 无 法 
实现 这 种 特性 。 编 译 器 的 非 完美 支持 可 能 会 限制 对 标准 库 类 的 使 用 。 有 时 ， 在 试图 使 用 
一 项 特性 时 编译 器 会 报错 ， 而 开发 人 员 无 法 确定 到 底 是 编译 器 有 问题 还 是 标准 库 的 实现 
有 问题 。 


当 一 位 非常 熟悉 C++ 标准 的 性 能 优化 开发 人 员 发 现 他 正在 使 用 的 编译 器 中 有 一 项 很 少 
被 使 用 的 特性 没有 被 实现 时 ， 可 能 会 感到 非常 诅 趟 。 
对 标准 库 开 发 人 员 来 说 ， 性 能 并 非 最 重要 的 事情 
尽管 对 于 C++ 开发 人 员 来 说 性 能 非常 重要 ， 但 对 于 标准 库 的 开发 人 员 来 说 ， 它 并 非 最 
重要 的 因素 。 特 性 的 覆盖 率 很 重要 ， 特 别 是 在 标准 库 的 开发 人 员 要 检查 最 新 C++ 标准 
的 特性 列表 时 。 简 单 性 和 可 维护 性 很 重要 ， 因 为 库 会 被 长 其 使用。 如果 库 的 实现 需要 支 
持 多 种 编译 器 ， 那 么 可 移植 性 很 重要 。 性 能 有 时 会 排 在 这 些 更 加 重要 的 因素 之 后 。 


从 标准 库 函 数 调用 到 相关 的 原生 函数 的 路 途 可 能 会 漫长 而 晓 昨 。 我 曾经 跟踪 过 fopen() 
的 调用 ， 直 至 调用 Windows 的 0penfile() 最 终 要 求 操 作 系统 打开 文件 之 前 ， 它 穿越 了 
多 层 进 行 参数 转换 的 函数 。 使 用 库 函 数 看 起 来 使 得 要 编写 的 代码 行 数 变 少 了 ， 但 是 多 层 
函数 调用 会 导致 性 能 降低 。 
库 的 实现 可 能 会 让 一 些 优化 手段 无 效 

Linux 的 AIO 库 (并 非 标准 C++ 库 ， 但 是 对 于 性 能 优化 开发 人 员 却 非常 有 用 ) 曾经 打 
算 提 供 一 个 非常 高 效 的 、 异 步 的 、 免 复制 的 用 于 读 取 文件 的 接口 。 问 题 在 于 AIO 要 求 
一 个 特定 的 Linux 内 核 版 本 。 在 绝 大 部 分 Linux 发 行 版 升级 内 核 之 前 ，AIO 都 是 以 老式 
的 方式 编写 的 ， 它 只 能 进行 缓慢 的 IO 调用 。 开 发 人 员 可 以 编写 AIO 调用 ， 但 是 无 法 
得 到 AIO 的 性 能 。 
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并 非 C++ 标准 库 中 的 所 有 部 分 都 同样 有 用 
有 些 C++ 特征 ， 例 如 良好 的 异常 层次 结构 、vector<bool> 以 及 标准 库 分 配器 等 ， 都 是 
在 加 入 到 标准 中 多 年 以 后 才 被 开发 人 员 所 使 用 。 这 些 特 性 实际 上 使 得 编码 变 得 更 加 困 
难 ， 而 不 是 简单 。 好 在 标准 委员 会 似乎 克制 住 了 之 前 对 于 未 经 测试 的 新 特性 的 热情 。 现 
在 ， 所 推荐 的 库 的 新 特性 都 会 在 Boost 库 (http://www.boost.org) 中 孕育 多 年 后 ， 才 会 
被 标准 委员 会 所 采纳 。 
标准 库 不 如 最 好 的 原生 函数 高 效 
标准 库 没 有 为 某 些 操 作 系 统 提 供 异 步 文 件 VO 等 特性 。 性 能 优化 开发 人 员 对 调用 了 标准 
库 的 代码 进行 优化 是 有 极限 的 。 要 想 获得 最 后 的 一 点 性 能 提升 ， 性 能 优化 开发 人 员 只 能 
通过 调用 原生 函数 ， 牺 性 可 移植 性 来 换取 运行 速度 。 


8.2 优化 现 有 库 


优化 现 有 库 就 如 同 扫 雷 一 样 。 这 是 可 能 的 ， 也 是 有 必要 的 。 但 是 这 是 一 项 需要 耐心 和 对 细 
市 极度 专注 的 工作 ， 否 则 就 会 引起 爆炸 ! 

最 容易 优化 的 库 是 设计 良好 、 低 耦合 和 带 有 优秀 测试 用 例 的 库 。 不 季 的 是 ， 这 类 库 通常 都 
已 经 被 优化 过 了 。 现 实情 况 是 ， 如 有 果 你 被 要 求 去 优化 一 个 库 ， 那 么 它 可 能 是 一 堆 功 能 耦合 
在 了 函数 或 类 中 ， 而 这 些 函 数 或 类 要 么 做 了 太 多 事情 ， 要 么 什么 都 没 做 。 

修改 库 会 引入 一 些 风险 ， 因 为 有 些 其 他 程序 依赖 于 当前 实现 中 的 未 意识 到 的 或 是 未 在 文档 
中 记录 的 行为 。 尽 管 修 改 一 个 程序 让 其 运行 得 更 快 时 ， 修 改 自 身 不 太 可 能 会 引发 问题 ,但 
是 有 些 随 之 而 来 的 行为 上 的 变化 则 可 能 会 导致 问题 。 

修改 开源 库 可 能 会 在 你 的 工程 中 所 使 用 的 库 版 本 和 主 库 之 间 引 入 潜在 的 兼容 性 问题 。 当 开 
源 库 升级 版 本 ， 修 复 了 bug 或 是 增加 了 功能 后 ， 这 就 会 有 问题 了 。 要 么 你 必须 将 你 的 修改 
手动 合并 到 修改 后 的 库 中 ， 要 么 你 的 修改 就 会 随 着 库 版 本 升级 而 丢失 ， 抑 或 是 你 修改 后 的 
库 中 的 bug 被 其 他 贡献 者 及 时 地 修复 了 ， 但 是 你 却 错过 了 这 次 修复 。 因 在 ， 在 选择 开源 库 
时 ， 最 好 确认 开源 社区 是 否 欢 迎 你 进行 修改 ,或 是 该 库 是 否 已 经 非常 成 熟 和 稳定 。 

不 过 ， 这 并 不 意味 着 优化 现 有 库 是 完全 没有 希望 的 。 下 面 将 会 介绍 一 些 修改 现 有 库 的 
原则 。 


8.2.1 改动 越 少 越 好 


给 库 的 优化 人 员 的 最 好 建议 是 ， 改 动 越 少 越 好 。 不 要 向 类 或 函数 中 添加 或 移 除 功能 ， 也 不 
要 改变 函数 签名 。 这 类 改动 几乎 肯定 会 破坏 修改 后 的 库 与 使 用 库 的 程序 之 间 的 兼容 性 。 


另外 一 个 尽量 对 库 少 进行 改动 的 理由 是 ， 这 样 可 以 缩小 需要 理解 的 库 的 代码 的 范围 。 





















































































































































优化 战争 故事 
我 曾经 为 一 家 出 售 工业 级 OpenSSH 并 提供 技术 支持 的 公司 工作 过 ， 该 工具 是 基于 赫 尔 
辛 基 理 工大 学 研究 员 Tatu Yl5nen 于 1995 年 编写 的 一 个 仅 限 个 人 使 用 的 程序 开发 而 成 的 。 
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这 是 我 初次 进入 开源 世界 ， 我 发 现 这 些 代 码 并 不 是 由 经 验 丰富 的 开发 人 员 所 编写 的 ， 
因此 不 够 简洁 。 所 以 ， 我 对 代码 进行 了 一 些 大 改动 ， 使 得 程序 更 加 易于 维护 一 一 至 少 
我 最 初 是 这 么 认为 的 。 

虽然 我 的 个 人 编码 风格 一 直 非 常 棒 ， 但 是 我 发 现 几 乎 永远 无 法 践 行 我 的 风格 。 


现在 回 过 头 看 ， 原 因应 该 是 显而易见 的 。 我 的 修改 使 得 代码 与 各 个 开源 版 本 变种 之 间 
的 区 别 太 大 了 。 我 们 需要 从 社区 中 获得 重要 的 与 安全 性 相关 的 bug 的 修复 ， 但 是 这 些 
区 复 部 是 基于 修改 之 前 的 版 本 ,而 且 要 想 将 它们 合并 到 修改 后 的 版 本 中 非常 耗 时 。 尽 
管 我 曾经 建议 开源 社区 将 改动 吸纳 进 开源 版 本 中 ， 但 是 安全 社区 对 这 些 改动 极其 保 宁 ， 
当然 这 并 没有 错 。 


当时 ,我 只 需要 修改 那些 与 用 户 要 求 我 们 进行 的 安全 性 改进 有 关 的 代码 即 可 ,这样 就 可 
以 将 修改 范围 缩 至 最 小 。 永 远 不 要 对 这 类 代码 进行 重 构 ， 即 使 它们 看 起 来 非常 需要 重 构 。 














8.2.2 添加 函数 ， 不 要 改动 功能 

在 优化 现 有 库 的 黑暗 世界 中 也 有 一 丝 希 望 ， 那 就 是 在 现 有 库 中 加 入 新 函数 和 类 是 相对 安全 
的 。 当 然 ， 这 也 存在 着 一 种 风险 ， 因 为 该 库 以 后 的 版 本 中 可 能 会 出 现 一 个 与 我 们 新 加 入 的 
类 或 函数 同名 的 类 或 者 国 数 。 当 然 ， 只 要 谨慎 地 选择 名 字 ， 这 种 风险 就 是 可 控 的 ， 而 且 即 
使 发 生 了 重 名 问题 ， 也 可 以 编写 宏 来 解决 。 

以 下 是 一 些 安全 地 修改 现 有 库 来 提高 性 能 的 方法 。 

。 向 现 有 库 中 添加 函数 , 将 循环 处 理 移动 到 这 个 新 函数 内 , 在 你 的 代码 中 使 用 编程 惯用 法 。 
。 通过 向 现 有 库 中 添加 接收 右 值 引用 作为 参数 的 新 函数 ， 重 载 现 有 库 中 的 旧 国 数 来 在 老 版 

本 的 库 中 实现 移动 语义 (请 参见 6.6 节 详 细 了 解 更 多 有 关 移 动 语义 的 内 容 )。 


8.3 设计 优化 库 


硬 对 设计 糟糕 的 库 ， 性 能 优化 开发 人 员 几 乎 无 能 为 力 。 但 是 面 对 一 个 空白 屏幕 时 ， 性 能 优 
化 开发 人 员 则 有 更 大 的 使 用 最 佳 实践 以 及 避免 性 能 陷阱 的 余地 。 

下 面 这 份 检查 列表 中 的 部 分 项 目 是 非常 远大 的 目标 。 也 就 是 说 ， 在 本 市 中 我 不 会 提供 关于 
如 何在 某 个 库 中 达成 各 种 目标 的 具体 建议 ， 我 只 是 提醒 大 家 那些 最 优秀 和 最 实用 的 库 都 实 
现 了 这 些 远 大 的 目标 。 如 有 果 你 的 库 偏离 了 这 些 远 大 的 目标 ， 那 么 最 好 重新 审视 下 设计 。 


8.3.1 草率 编码 后 悔 多 
草率 结婚 后 悔 多 。 
一 一 宕 绿 尔 .约翰逊 (1709-1784) ， 英 国 词 曲 编纂 家 、 随 笔 作 家 和 诗人 
接口 的 稳定 性 是 设计 可 持续 交付 的 库 的 核心 。 匆 匆忙 忙 地 设计 库 或 是 在 库 中 揉 入 一 堆 强 耦 
合 的 函数 ， 都 会 导致 无 法 定义 出 优秀 的 调用 规则 和 返回 规则 ， 无 法 实现 优秀 的 内 存 分 配 行 
为 以 及 效率 。 紧 接着 ,保持 库 的 稳定 性 的 压力 会 随 之 而 来 。 不 过 ， 修 复 库 中 所 有 函数 需要 
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太 多 的 时 间 ， 这 会 妨碍 开发 人 员 维持 库 的 稳定 。 


设计 优化 库 与 设计 其 他 C++ 代码 是 一 样 的 ， 不 过 风险 更 高 。 从 定义 上 说 ， 库 意味 着 更 广泛 
地 使 用 。 库 的 任何 设计 、 实 现 或 是 性 能 上 的 瑕 症 都 会 对 所 有 用 户 造成 影响 。 在 一 些 不 重要 
的 代码 中 随意 地 进行 编码 可 能 不 会 有 太 大 问题 ， 但 是 在 开发 库 时 这 么 做 就 会 带 来 大 麻烦 。 
老式 的 开发 手法 ， 包 括 在 项 目前 期 完善 规范 和 设计 、 文 档 以 及 模块 化 测试 ， 都 会 在 开发 库 
这 样 的 关键 代码 时 派 上 用 场 。 


























专业 优化 提示 : 测试 用 例 很 关键 
测试 用 例 对 所 有 软件 部 非常 重要 。 它 们 可 以 帮助 我 们 验证 最 初 设计 的 正确 性 ， 并 降低 
在 性 能 优化 过 程 中 修改 代码 时 对 程序 的 正确 性 造成 影响 的 概率 。 测 试用 例 在 库 代 码 中 
的 重要 性 更 高 ， 不 过 风险 也 更 高 。 


测试 用 例 可 以 帮助 我 们 在 设计 库 的 过 程 中 识别 出 依赖 性 关系 和 耦合 性 。 具 有 良好 设计 
的 库 中 的 也 数 都 应 当 能 够 独立 测试 。 如 果 在 测试 一 个 目标 函数 前 需要 实例 化 许多 对 象 ， 
那么 这 对 于 设计 人 员 来 说 就 是 一 个 信号 ， 它 表明 库 的 组 件 之 间 存 在 着 太 多 的 耦合 。 
测试 用 例 可 以 帮助 设计 人 员 了 解 如 何 使 用 库 。 如 果 缺 乏 这 方面 的 了 解 ， 就 连 经 验 丰 富 
的 设计 人 员 也 难以 设计 出 重要 的 接口 函 数 。 测 试用 例 可 以 帮助 设计 人 员 在 早期 识别 出 
设计 瑕 疲 ， 此 时 对 库 接 口 进 行 修改 还 不 算 太 麻烦 。 知 道 如 何 使 用 库 可 以 帮助 设计 人 员 
识别 要 使 用 的 惯用 法 ， 这 样 这 些 惯用 法 就 会 被 植 入 在 库 的 设计 中 ， 有 助 于 编写 出 更 高 
效 的 函数 接口 。 

测试 用 例 可 以 帮助 我 们 测量 库 的 性 能 。 性 能 测量 可 以 确保 所 采用 的 优化 手段 确实 改善 
了 性 能 。 我 们 也 可 以 将 性 能 测量 自身 加 入 到 其 他 测试 用 例 中 ， 以 确保 库 的 修改 不 会 对 
性 能 造成 影响 。 

















8.3.2 在 库 的 设计 上 ， 简 约 是 一 种 美德 

对 于 那些 在 日 常生 活 中 不 会 使 用 “简约 ”这 个 词 的 读者 ， 在 韦 氏 辞典 的 线 上 版 中 , “简约 ” 
(http://www.merriam-webster.com/dictionary/parsimony) 的 定义 是 “节约 使 用 金钱 或 资源 的 
品质 ， 经 济 地 使 用 手段 *。 读 者 可 能 认为 这 是 KISS (keep it simple, stupid) 原则 。“ 简 约 ” 
表示 库 应 当 专 注 于 某 项 任务 ， 而 且 只 应 当 使 用 最 小 限度 的 资源 来 完成 这 项 任务 。 


例如 ， 对 于 一 个 库 函 数 而 言 ， 接 收 一 个 有 效 的 std: :istream 引用 作为 参数 并 通过 它 读 取 数 
据 ， 比 接收 一 个 文件 名 作为 参数 ， 然 后 打开 这 个 文件 更 加 简约 ， 处 理 与 操作 系统 相关 的 文 
件 名 语义 和 JO 错误 并 非 进行 数据 处 理 的 库 的 核心 。 请 参见 10.1.1 节 中 的 例子 。 接 收 一 个 
指向 内 存 缓冲 区 的 指针 作为 参数 ， 比 分 配 并 返回 一 块 内 存 更 加 简约 ， 这 意味 着 库 不 必 处 理 
内 存 溢出 异常 。 请 参见 6.5.4 节 中 的 例子 。 简 约 是 持续 地 适用 SOLID 设计 原则 ”中 的 单一 职 






































注 3: SOLID 设计 是 指 单一 职责 原则 (Single Responsibility) . 开 闭 原则 (Open Closed) .里 氏 替 换 原 则 (Liskov 
Substitution)、 接 口 隔 离 原 则 (Interface Segregation) 和 依赖 倒置 原则 (Dependency Inversion ) 。 
SOLID 是 由 这 五 个 原则 的 首 字母 组 合 而 成 的 单词 。 译 者 注 
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责 原 则 以 及 接口 隔离 原则 等 优秀 C++ 开发 原则 的 终极 结果 。 


简约 的 库 都 是 简单 的 。 它 们 是 由 非 成 员 函 数 或 是 简单 的 类 组 成 的 。 你 可 以 分 块 学 习 和 理解 
它们 。 这 也 是 大 多 数 程序 员 学 习 C++ 标准 库 这 个 庞大 但 简约 的 库 的 方式 。 


8.3.3 不 要 在 库 内 分 配 内 存 

这 是 简约 原则 的 一 个 有 具体 示例 。 由 于 内 存 分 配 非常 昂贵 ， 如 果 可 能 的 话 ， 请 在 库 外 部 进行 
内 存 分 配 。 例 如 ， 应 当 让 库 函 数 通 过 参数 接收 内 存 ， 然 后 向 其 中 写 值 ， 而 不 要 让 库 函 数 分 
配 并 返回 内 存 。 

将 内 存 分 配 移动 到 库 国 数 外 部 ， 可 以 允许 调用 方 实现 第 6 章 中 介绍 过 的 性 能 优化 方法 一 一 
在 每 次 调用 函数 时 尽 可 能 地 重用 内 存 ， 而 不 是 分 配 新 的 存储 空间 。 


将 内 存 分 配 移 动 到 库 外 部 ， 还 可 以 减少 在 函数 之 间 传 递 数 据 时 保存 数据 的 存储 空间 被 复制 
的 次 数 。 

如 果 有 必要 ， 可 以 将 内 存 分 配 放 到 继承 类 中 ， 然 后 在 基 类 中 仅仅 保存 一 个 指向 已 分 配 内 存 
的 指针 。 这 种 方式 可 以 让 继承 类 以 不 同 的 方式 分 配 内 存 。 

要 求 在 库 外 部 分 配 内 存 会 影响 到 函数 签名 (例如 ， 传 递 一 个 指向 缓存 的 指针 与 返回 一 块 已 
分 配 的 缓存 )， 因 此 ， 在 设计 库 时 做 出 这 个 决定 非常 重要 。 试 图 修改 那些 已 被 其 他 程序 使 
用 的 库 函 数 的 签名 ,会 导致 库 的 调用 方 也 必须 进行 相应 的 修改 。 


8.3.4 若 有 疑问 ， 以 速度 为 准 

在 第 1 章 中 ， 我 引用 了 高 德 纳 教授 的 告诫 :“ 过 早 优化 是 万 恶 之 产 。” 当 时 ， 我 还 是 太 武 断 
了 。 不 过 在 设计 库 时 ， 这 条 建议 特别 危险 。 
对 于 库 类 或 是 库 函 数 ， 优 秀 的 性 能 特别 重要 。 库 的 设计 人 员 是 无 法 预计 在 库 的 应 用 场景 中 会 
出 现 什么 性 能 问题 的 。 而 在 发 生性 能 问题 之 后 再 去 改善 性 能 则 会 非常 困难 ， 甚 至 是 不 可 能 
的 ， 特 别 是 当 牵 扯 到 需要 改变 国 数 签名 或 是 国 数 行为 时 。 即 使 是 修改 一 个 只 在 企业 内 部 使 用 
的 库 ， 也 可 能 会 涉及 许多 程序 。 如 果 库 已 经 被 广泛 使 用 了 ， 例 如 随 着 开源 项 目 被 一 起 发 布 
了 ， 可 能 会 无 法 更 新 甚至 无 法 找到 所 有 的 使 用 者 。 库 的 任何 改动 都 会 引起 大 范围 的 修改 。 


8.3.5 ”函数 比 框架 更 容易 优化 

库 可 以 分 为 两 种 : 函数 库 和 框架 。 框 架 在 概念 上 是 一 个 非常 庞大 的 类 ， 它 实现 了 一 个 完整 
程序 的 骨架 ， 例 如 一 个 视窗 应 用 程序 或 是 一 个 Web 服务 器 。 你 可 以 用 小 函数 来 装饰 这 个 框 
架 ， 让 它 成 为 你 专属 的 视窗 应 用 程序 或 是 Web 服务 器 。 

第 二 种 库 是 函数 和 类 等 组 件 的 集合 ， 可 以 将 它们 组 合 起 来 实现 程序 ， 例 如 Web 服务 器 中 的 
URI 解析 或 是 视窗 应 用 程序 中 的 文本 绘制 。 

这 两 种 库 都 可 以 实现 强大 的 功能 和 提高 生产 力 。 一 组 功能 的 集合 可 以 被 打包 为 函数 (如 同 
Windows SDK 中 那样 ) 或 是 框架 (如 同 Windows MFC 中 那样 ) 。 不 过 ， 从 性 能 优化 人 员 
的 角度 看 ， 函 数 库 比 框架 更 容易 优化 。 
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函数 的 优势 在 于 我 们 可 以 独立 地 测量 和 优化 它们 的 性 能 。 调 用 一 个 框架 会 牵扯 到 它 内 部 的 
所 有 类 和 函数 ， 使 得 修改 变 得 难以 隔离 和 测试 。 框 架 违 反 了 分 离 原则 或 是 单一 职责 原则 。 
这 使 得 它们 难以 优化 。 

我 们 能 够 在 一 个 更 大 的 应 用 程序 (例如 绘画 例 程 或 是 URI 解析 器 ) 中 集中 使 用 函数 。 只 

库 中 那些 必需 的 功能 才 会 与 程序 链接 起 来 。 而 框架 则 包含 了 “上 帝 函 数 ”( 请 参见 8.3.10 
市 )， 它 们 自身 会 关联 框架 中 的 许多 部 分 。 这 会 导致 在 程序 中 引入 许多 从 不 会 被 使 用 的 代 
码 ， 使 程序 变 得 腔 肿 不 堪 。 

具有 优秀 设计 的 函数 不 会 依赖 于 它们 所 运行 的 环境 。 相反， 框架 则 基于 一 个 由 希望 开发 人 
员 做 的 事情 所 组 成 的 庞大 、 通 用 的 模型 。 只 要 这 个 模型 与 开发 人 员 的 实际 需求 之 间 存 在 着 
不 匹配 的 情况 ， 就 会 导致 性 能 变 得 低下 。 


8.3.6 ”扁平 继承 层次 关系 

多 数 抽象 都 不 会 有 超过 三 层 类 继承 层次 : 一 个 具有 通用 函数 的 基 类 ， 一 个 或 多 个 实现 多 态 
的 继承 类 ， 以 及 一 个 在 非常 复杂 的 情况 下 可 能 会 引入 的 多 重 继承 混合 层 。 在 某 些 特殊 情况 
下 ， 开 发 人 员 必 须 自 己 决 定 设计 多 少 层 类 继承 层次 。 不 过 ， 一 旦 继承 层次 超过 了 三 层 ， 这 
就 是 一 个 信号 ， 表 明 类 的 层次 结构 不 够 清晰 ， 其 引入 的 复杂 性 会 导致 性 能 下 降 。 

从 性 能 优化 的 角度 看 ， 继 承 层次 越 深 ,在 成 员 函 数 被 调用 时 引入 额外 计算 的 风险 就 越 高 
(请 参见 7.2.1 节 )。 在 有 许多 层林 类 的 继承 类 中 ， 构造 函数 和 析 构 函数 需要 穿越 很 长 的 调 
用 链 才 能 执行 它们 的 任务 。 尽 管 它们 通常 并 不 会 被 频繁 地 调用 ， 但 是 其 中 仍然 存在 着 在 性 
能 需求 极其 严格 的 运算 中 引入 昂贵 的 函数 调用 的 风险 。 


8.3.7 ”扁平 调用 链 

与 继承 类 一 样 ， 绝 大 多 数 抽象 的 实现 都 不 会 超过 三 层 内 套 函数 调用 : 一 种 非 成 员 函 数 或 是 
成 员 函 数 实 现 策略 ， 调 用 某 个 类 的 成 员 函 数 ， 调 用 某 个 实现 了 抽象 或 是 访问 数据 的 公有 或 
私有 的 成 员 函 数 。 

如 果 艇 套 抽 象 是 通过 调用 被 包含 的 类 实例 的 方法 实现 的 ， 那 么 在 其 中 访问 数据 可 能 会 导 
致 发 生 三 层 国 数 调用 。 这 种 解析 会 递归 地 向 和 藤 套 抽象 链 下方 前 进 。 在 已 经 充分 解 耦 的 库 
中 是 不 会 包含 宛 长 的 秽 套 抽 象 调 用 链 的 。 这 些 和 能 套 抽 象 调用 会 在 国 数 调 用 和 返回 时 引入 
额外 的 开销 。 


8.3.8 ”扁平 分 层 设 计 

有 了 时候 ， 我 们 必须 用 一 种 抽象 来 实现 另外 一 种 抽象 ， 创 建 一 种 分 层 设计 。 正 如 之 前 所 指出 
的 ， 这 可 能 会 走向 极端 ， 导 致 对 性 能 产生 影响 。 

但 是 在 其 他 时 候 ， 一 种 抽象 会 在 一 个 层次 中 被 重复 实现 。 这 么 做 的 理由 如 下 。 


。 要 使 用 Fagade 模式 改变 调用 规则 来 实现 一 个 层 : 也 许 是 将 一 个 项 目 特有 的 参数 切换 为 
操作 系统 特有 的 参数 ， 也 许 是 将 参数 从 文本 字符 串 切 换 为 数字 ， 也 许 是 插入 一 段 项 目 特 
有 的 错误 处 理 。 
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。 要 使 用 一 个 紧密 相关 且 有 现成 代码 的 抽象 来 实现 另外 一 种 抽象 。 

。 要 在 返回 错误 的 函数 调用 和 抛 出 异常 的 函数 调用 之 间 实 现 一 种 过 渡 。 
。 要 实现 PIMPL 惯用 法 (请 参见 7.2.7 节 )。 

。 要 调用 DLL 或 是 插件 。 


在 以 上 这 几 种 情况 下 ， 开 发 人 员 必 须 自己 进行 判断 ， 因 为 虽然 有 非常 充分 的 理由 做 上 面 这 
些 事 情 ， 但 每 穿越 一 层 都 会 发 生 一 次 额外 的 函数 调用 和 返回 ， 导 致 每 次 函数 调用 的 性 能 都 
会 降低 。 设 计 人 员 必 须 评 审 各 层 之 间 的 罕 越 情况 ， 检 查 是 否 确 实 需要 跨越 层 ， 或 是 是 否 可 
以 将 两 层 或 者 多 层 压 缩 为 一 层 。 下 面 是 一 些 指导 代码 评审 的 建议 。 


。 如 果 在 一 个 项 目的 Facade 模式 中 有 许多 实例 ， 可 能 意味 着 过 度 设 计 。 

。 过 度 分 层 设 计 的 一 个 信号 是 一 个 层 出 现 了 不 止 一 次 ， 例 如 返回 错误 的 层 调用 了 异常 处 理 

层 ， 而 这 个 异常 处 理 层 接着 又 调用 了 返回 错误 的 层 。 

。 PIMPL 的 初 表 是 提供 重 编译 防火 墙 ， 但 是 它 其 中 的 租 套 实例 却 难以 为 此 开脱 。 多 数 子 
系统 其 实 都 没有 大 到 需要 峰 套 使 用 PIMPL 的 程度 (请 参见 7.2.7 节 )。 

。 项 目 特有 的 DLL 常常 被 推荐 用 来 封装 bug 修复 。 很 少 有 项 目 意识 到 这 个 工具 ， 因 为 
bug 修复 往往 是 批量 发 布 的 ， 这 跨越 了 DLL 的 边界 。 

移 除 多 余 的 层 是 一 项 只 能 在 设计 阶段 完成 的 任务 。 在 设计 阶段 ， 设 计 人 员 会 得 到 库 的 商业 

需求 信息 。 一 旦 库 设 计 完 成 之 后 ， 不 管 它 有 什么 环 症 ， 进 行 任何 修改 时 都 必须 衡量 成 本 与 

收益 。 经 验 告 诉 我 ， 除 非 你 拿 枪 指 着 他 们 的 头 ， 否 则 任何 一 位 项 目 经 理 都 不 愿意 让 你 花费 

几 个 冲刺 的 时 间 来 修复 库 。 


8.3.9 避免 动态 查找 


大 型 程序 包 往 往 含 大 量 的 配置 信息 或 是 注册 表 项 。 音 频 和 视频 流 文件 等 复杂 的 数据 文件 往 
往 包 含 了 可 选 的 用 于 描述 数据 的 元 数据 。 如 果 只 有 少量 元 数据 项 目 ， 那 么 很 容易 定义 一 个 
结构 体 或 是 类 来 存储 它们 。 但 是 如 果 有 几 十 甚至 上 百 个 元 数据 项 目 ， 许 多 设计 人 员 会 试 
图 采用 一 种 通过 给 定 的 关键 字 字符 串 在 表 中 查找 元 数据 的 方法 。 如 果 配 置信 息 是 JSON 或 
XML 格式 ， 他 们 更 可 能 这 样 做 ， 因 为 有 现成 的 从 JSON 或 XML 文件 中 动态 地 查找 元 素 的 
库 。 有 些 编程 语言 ， 如 Objective-C， 自 带 了 进行 这 种 处 理 的 系统 库 。 不 过 ， 动 态 地 查找 符 
号 表 可 是 “性 能 杀手 “， 原 因 如 下 。 


。 动态 查找 天 生 低 效 。 有 些 库 查 找 JSON 或 XML 元 素 的 性 能 是 O(n)， 时 间 开 销 与 待 查 找 
的 文件 大 小 成 正比 。 基 于 表 的 查找 的 时 间 开 销 可 能 是 O(logn)。 相 比 之 下 ， 从 结构 体 中 
获取 一 个 元 素 的 时 间 开销 只 有 0(1)， 而 且 这 个 比例 常量 非常 小 。 

。 库 的 设计 人 员 可 能 对 库 需 要 访问 的 元 数据 不 太 了 解 。 如 果 配 置 文件 的 初始 化 只 是 在 程序 
启动 时 进行 一 次 ， 那 么 开销 可 能 不 大 。 但 是 实际 上 ， 许 多 元 数据 会 在 程序 进行 处 理 的 过 
程 中 反复 地 被 读 取 ， 而 且 可 能 会 在 不 同 的 工作 单元 之 间 发 生 改 变 。 虽 然 过 早 优化 是 万 恶 
之 产 ， 但 是 查找 一 个 关键 字 字 符 串 永远 不 可 能 比 查 找 键 值 对 表 更 快 ， 而 且 不 会 破坏 现 有 
的 实现 。 显 然 ， 万 恶 之 源 不 止 一 个 ! 

。 一 且 决 定 采 用 基于 表 的 查找 的 设计 方式 ， 那 么 接 下 来 的 问题 就 是 一 致 性 了 。 对 于 一 个 给 
定 的 变换 ， 表 中 包含 了 所 有 所 需 的 元 数据 吗 ? 必须 成 对 出 现 的 命令 行 参数 真 的 成 对 出 现 
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了 吗 ? 尽管 我 们 可 以 检查 基于 表 的 数据 仓库 的 一 致 性 ， 但 这 是 一 项 性 能 开销 昂贵 的 运行 
时 运算 ， 它 涉及 代码 编写 和 多 次 昂贵 的 查找 。 访 问 一 个 简单 的 结构 体 中 的 数据 远 比 多 次 
查找 表 要 快 。 

。 基于 结构 体 的 数据 仓库 在 某 种 程度 上 可 以 说 是 自 描述 的 ， 因 为 所 有 可 能 的 元 数据 都 是 立 
即 可 见 的 。 相 比 之 下 ， 符 号 表 则 是 一 个 不 透明 的 大 包 包 ， 里 面 装 满 了 未 命名 的 值 。 使 用 
这 种 数据 仓库 的 团队 需要 仔细 地 记录 在 程序 的 各 个 执行 阶段 中 出 现 的 元 数据 。 但 是 就 我 
的 经 验 而 言 ， 一 个 团队 很 难 一 直 遵 守 这 项 纪律 。 另 一 种 解决 方法 是 编写 无 尽 的 代码 ， 试 

图 重新 生成 丢失 的 元 数据 ， 但 永远 不 知道 这 段 代码 是 否 会 被 调用 ， 更 别 谈 这 段 代 码 是 否 

正确 了 。 


8.3.10 留意 “上 帝 函 数 ” 

“上 带 函 数 ” 是 指 实现 了 高 级 策略 的 函数 。 如 果 在 程序 中 使 用 这 种 函数 ， 会 导致 链接 器 向 
可 执行 文件 中 添加 许多 库 函 数 。 在 符 入 式 系统 中 ， 可 执行 文件 的 增 大 会 耗 尽 物 理 内 存 ， 而 
在 桌面 级 计算 机 上 ， 可 执行 文件 的 增 大 则 会 增加 虚拟 内 存 分 页 。 
在 许多 现 有 的 库 中 都 存在 着 性 能 开销 昂贵 的 上 帝 函 数 。 优 秀 的 库 在 设计 时 会 移 除 这 些 国 
数 。 但 是 如 果 将 库 作 为 框架 设计 ， 则 无 法 避免 上 帝 函 数 。 







































































优化 战争 故事 
下 面 是 一 句 我 称 为 “printf() 不 是 你 的 朋友 ”的 格言 。 
“Hello, World” 可 能 是 最 简单 的 Ct+ (或 C) 程序 了 : 


# include <stdio.h> 

int main(int, char**) { 
printf("Hello, World!\n"); 
return 0; 


} 


这 段 程序 包含 了 多 少 个 可 执行 字 节 呢 ? 如 果 你 猜 “ 大 约 50 或 100 字 节 ”， 那么 你 型 错 
了 两 个 数量 级 。 在 我 编写 的 一 个 吝 入 式 控 制 器 中 ， 这 段 程序 占用 了 8KB。 而 且 这 仅仅 
是 代码 的 大 小 ， 不 包含 符号 表 、 加 载 器 信息 和 其 他 任何 东西 。 


下 面 这 段 代码 完成 的 工作 与 之 前 的 代码 相同 : 


# include <stdio.h> 

int main(int, char**) { 
puts("Hello, World!"); 
return 0; 


} 


这 段 程序 实际 上 与 之 前 的 程序 是 一 样 的 ， 只 是 使 用 了 puts() 来 输出 字符 事 ， 而 没有 用 
printf()。 但 是 第 二 个 程序 只 占用 了 大 约 100 字 节 。 导 致 程序 大 小 区 别 这 么 大 的 原因 
是 什么 呢 ? 
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printf() 正 是 罪魁 祸首 。printf() 能 够 以 三 四 种 格式 打印 各 种 类 型 的 数据 。 它 能 够 将 
某 种 格式 的 字符 串 解释 为 读 取 可 变数 量 的 参数 。printf() 自身 就 是 一 个 大 函数 ， 但 是 
真正 让 它 变 大 的 原因 是 ， 它 引入 了 格式 化 各 种 基本 类 型 的 标准 库 函 数 。 在 我 的 误 入 式 
控制 器 上 ， 情 况 更 加 糟糕 ， 由 于 处 理 器 没有 实现 硬件 浮 点 类 型 计 工 ， 因 此 我 使 用 了 一 
个 函数 扩展 库 。 事 实 上 ，printf() 是 上 党 函数 的 典型 代表 一 一 个 吸收 了 C 运行 时 
库 ， 可 以 做 许多 事情 的 函数 。 


另 一 方面 ，puts() 只 是 将 字符 串 放 到 标准 输出 中 而 已 。 它 的 内 部 非常 简单 ， 而 且 它 不 
会 链接 标准 库 中 的 许多 闻 数 。 





8.4 小 结 














C++ 标准 库 之 所 以 提供 这 些 函 数 和 类 ， 是 因为 要 么 无 法 以 其 他 方式 提供 这 些 函 数 和 类 ， 
要 么 这 些 函 数 和 类 会 被 广泛 地 用 于 多 种 操作 系统 上 

在 标准 库 实现 中 也 存在 bug。 

没有 一 种 “完全 符合 标准 的 实现 ”。 

标准 库 不 如 最 好 的 原生 函数 高 效 。 

当 要 升级 库 时 ， 尽 量 只 进行 最 小 的 改动 。 
接口 的 稳定 性 是 可 交付 的 库 的 核心 。 
在 对 库 进行 性 能 优化 时 ， 测 试用 例 非常 关键 。 
设计 库 与 设计 其 他 C++ 代码 是 一 样 的 ， 只 是 风险 更 高 。 
多 数 抽象 都 不 需要 超过 三 层 类 继承 层次 。 

多 数 抽象 的 实现 都 不 需要 超过 三 层 柑 套 函数 调用 。 
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优化 查找 和 排序 


总 会 有 方法 做 得 更 好 的 一 一 找到 它 。 
一 一 托马斯 .爱迪生 (1847 一 1 
C++ 程序 会 进行 许多 查找 操作 。 从 编程 语言 的 编译 器 到 六 





931) ， 美 国 发 明 家 和 优化 专家 
训 览 器 ， 从 控制 链表 到 数据 库 ， 许 


多 反复 进行 的 程序 活动 都 会 在 某 个 内 部 循环 的 底层 进行 查找 操作 。 就 我 的 经 验 而 言 ， 碍 找 


操作 通常 会 出 现在 热点 函数 的 列表 中 。 因 此 我 们 需要 特别 注意 查找 操作 的 效率 。 


本 章 将 会 以 性 能 优化 人 员 的 视角 审视 表 的 查找 操作 。 开 发 人 员 在 执行 性 能 优化 任务 时 ， 可 
以 采取 一 种 通用 优化 过 程 : 先 将 现 有 解决 方案 分 解 为 组 件 算法 和 数据 结构 ， 然 后 在 每 个 组 
件 算法 和 数据 结构 中 寻找 优化 机 会 。 在 本 章 中 我 将 以 查找 操作 为 例 讲解 这 个 通用 优化 过 





程 。 此 外 ， 我 还 会 评估 某 些 查找 方法 来 展示 优化 过 程 。 








大 多 数 C++ 开发 人 员 都 知道 ， 可 以 用 一 个 数字 索引 或 是 包含 字母 和 数字 的 关键 字 字 符 
串 ， 从 标准 库容 器 std: :map es 它们 相关 联 的 值 。 这 样 的 关联 关系 被 称 为 键 值 对 表 。 键 


和 值 之 间 形 成 了 一 种 映射 关系 ， 该 容器 因此 而 得 名 。 





熟悉 std::map 的 开发 人 员 都 知道 ， 





从 大 0 表达 式 看 ， 它 的 性 全 很 本 在 本 章 中 ， 我 将 会 介绍 几 种 优化 基本 的 基于 map 的 查 


找 的 方法 。 





只 有 少数 开发 人 员 知 道 ， 在 C++ 标准 库 中 的 <algorithm> 头 文件 中 包含 了 几 种 基于 迭代 器 
的 查找 序列 容器 的 算法 。 即 使 在 最 优 情况 下 ， 这 些 算法 也 并 不 都 具有 相同 的 大 O 性 能 。 各 
种 情况 下 的 最 佳 算法 并 非 显而易见 ， 互 联网 上 的 建议 也 并 非 总 能 告诉 我 们 最 优 方法 。 寻 找 











最 佳 查 找 算 法 是 性 能 优化 过 程 的 另 一 个 例子 。 
即使 是 那些 熟悉 标准 库 算法 的 开发 人 员 也 可 能 没 听 说 过 





，C++11 中 加 入 了 基于 散 列 表 的 容 


器 [而 且 实 际 上 它们 已 经 在 Boost (http://www.boost.org/) 中 存在 多 年 了 ]。 使 用 这 些 无 序 
关联 容 絮 可 以 实现 非常 棒 的 、 达 到 平均 常量 时 间 的 查找 效率 ， 但 是 它们 并 非 万 灵 丹 。 
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9.1 


使 用 std: :map 和 std: :string 的 键 值 对 表 


作为 一 个 例子 ， 本 市 将 介绍 对 一 种 常用 的 键 值 对 表 进 行 各 种 查找 和 排序 的 性 能 。 在 这 个 例 





子 中 ， 表 的 键 是 





个 由 ASCII 字符 组 成 的 字符 串 ， 我 们 可 以 用 C++ 字符 串 字 面 量 来 初始 化 





已 ， 或 是 将 它 保存 在 








E std: :string 中 。 我 们 通常 会 使 用 这 样 的 表 来 解析 初始 化 配置 、 


命令 











行 、XML 文件 、 数 据 库 表 以 及 其 他 需要 有 限 组 键 的 应 用 程序 。 表 中 的 值 可 以 是 简单 的 整 








数 类 型 或 是 其 他 任意 的 复杂 类 型 。 除 非 有 一 个 非常 大 的 值 会 影响 高 速 缓存 性 能 ， 否 则 值 的 


类 型 对 查找 操作 的 性 能 不 会 有 影响 。 就 我 的 经 验 而 言 ， 通 常情 况 下 什 
我 决定 采用 简单 的 无 符号 整数 类 型 作为 值 类 型 。 


使 用 std: :map 构建 一 个 std: :string 类 型 的 名 字 与 无 符号 整数 值 之 i 


因此 这 是 











Es 














容易 的 。 可 以 如 下 这 样 简单 地 定义 一 个 表 : 


# include <string> 


如 果 使 用 的 是 支持 C++11 的 编译 器 ， 首 


# include <map> 


std: :map<std::string, unsigned> table; 





松 地 向 表 中 插入 数据 项 : 


std: :map<std::string, unsigned> const table { 


否则 ， 开 发 人 员 必 须 像 下 面 这 样 





"atLpha" ， 


"echo", 
"golf", 
"india", 
"kilo", 
"mike", 
"oscar", 
"quebec", 
"sierra", 


TO EP 


把 


table[ "alpha"] 
table[ "bravo"] 


"charlie", 3 }, 


"uniform",21 }, 
"whiskey" ,23 }， 
"yankee", 25 }, 


1}, { 


5 }， 


7 
9 }， 


{ 
{ 
{ 
{ 
{ 
{ 
{ 
{ 
{ 
{ 
{ 
{ 





1; 
2; 


table[ "zulu"] = 26; 


取得 或 是 测试 值 也 非常 简单 : 





"bravo", 
"delta", 
"foxtrot", 6 }, 
"hotel", 
"juliet", 
"lima", 
"november" 
"papa", 
"romeo", 
"tango", 
"VietoF.. 
"x-ray", 
"zuluy", 





2 }， 
4 }， 


8 }， 
10 }， 
12 }， 


16 }, 
18 ]， 
20 }， 
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编码 来 插入 每 条 元 素 : 





类 型 都 是 简单 类 型 ， 


的 映射 关系 的 表 是 很 


F 发 人 员 可 以 如 下 这 样 使 用 初始 化 列表 * 声明 语法 轻 


注 1: 这 样 的 表 可 能 无 法 满足 面向 阿拉 伯 语 用 户 或 是 中 文 用 户 开发 的 应 用 程序 的 要 求 。 关 于 如 何 应 对 这 种 需 
题 的 办 法 ， 


求 的 讨论 足够 写 出 另外 一 本 
面向 英文 用 户 开发 应 月 











而 
点 








L 的 例子 。 








了 。 我 希望 那些 
程序 的 开发 人 员 会 对 这 感 兴趣 并 











使 


用 宽 字 符 集 的 开发 人 员 








已 经 找到 了 





























此 分 散 注意 力 ， 所 以 我 决定 采 


解决 问 








用 





注 2: 关于 初始 化 列表 可 以 参考 : http:/www.cplusplus.comy/reference/initializer_lisVinitializer_list。 





个 简单 
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unsigned val = tabLe[ "echo"]; 


std::string key = "diamond"; 
if (table.find(key) != table.end()) 
std::cout << "table contains " << key << std::endl; 


使 用 std: :map 创建 表 是 一 个 例子 ， 它 向 我 们 展示 了 C++ 标准 库 提供 了 多 么 强大 的 抽象 能 
力 ， 让 我 们 无 需 太 多 思考 和 编码 即 可 实现 不 错 的 大 0 性 能 。 这 也 是 我 在 第 1 章 中 提 到 的 
C++ 的 通用 特性 的 一 个 例子 : 
C++ 的 混合 特性 提供 了 多 种 实现 方式 供 我 们 选择 。 一 方面 ， 我 们 可 以 实现 性 能 管 
理 的 全 自动 化 ， 另 一 方面 ， 我 们 也 可 以 对 性 能 逐渐 地 进行 精准 控制 。 正 是 这 些 先 
择 方式 使 得 我 们 可 以 优化 C++ 程序 以 满足 性 能 需求 。 


9.2 改善 查找 性 能 的 工具 箱 


但 是 ， 假 如 分 析 器 指出 一 个 包含 查找 表 操 作 的 函数 是 程序 中 最 热点 的 函数 之 一 ， 应 该 怎么 
办 呢 ? 例 如 下 面 这 个 函数 : 


void HotFunction(std::string Const& key) { 




















30t6 it = table.find(key); 
if (it == table.end()) { 
// 没有 在 表 中 找到 元 素 时 的 活动 


} 
else { 
// 在 表 中 找到 元 素 时 的 活动 


} 








} 

开发 人 员 能 够 做 得 比 最 简单 的 实现 方式 更 好 吗 ? 我 们 应 该 怎么 找 出 解决 方法 呢 ? 
经 验 丰 富 的 开发 人 员 会 立刻 注意 到 那些 低 效 的 地 方 。 他 可 能 会 知道 函数 中 的 一 个 算法 并 不 
是 最 优 算法 ,或 是 可 以 使 用 一 种 更 好 的 数据 结构 。 我 有 时 就 会 这 么 做 ， 尽 管 这 条 解决 之 道 
充满 了 风险 。 另 外 一 种 较 好 的 做 法 是 ， 开 发 人 员 有 条 理 地 推进 性 能 优化 工作 。 
。 测量 当前 的 实现 方式 的 性 能 来 得 到 比较 基准 。 
。 识别 出 待 优化 的 抽象 活动 。 
。 将 待 优化 的 活动 分 解 为 组 件 算法 和 数据 结构 。 
。 修改 或 是 禁 换 那些 可 能 并 非 最 优 的 算法 和 数据 结构 ， 然 后 进行 性 能 测试 以 确定 修改 是 否 

有 效果 。 
如 有 果 将 正在 被 优化 的 活动 视 为 一 个 抽象 的 话 ， 那 么 优化 任务 就 是 选择 抽象 的 基准 实现 方式 
并 将 其 分 解 为 各 个 组 件 ， 然 后 将 这 些 组 件 重新 构建 为 一 种 性 能 更 好 的 更 适合 的 抽象 。 
如 有 果 可 能 的 话 ， 我 喜欢 在 白板 上 进行 这 个 过 程 ， 若 是 不 行 ， 在 文本 编辑 器 或 是 工程 笔记 本 
上 也 行 。 这 个 过 程 是 和 狗 代 的 。 分 解 问 题 的 时 间 越 长 ， 所 得 到 的 组 件 也 会 越 多 。 在 大 多 数 活 
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动 中 都 会 有 足够 多 的 组 件 值得 优化 ， 而 试图 记 住 它 们 是 不 可 靠 的 。 好 记性 不 如 烂 笔 头 ， 将 
它们 记录 在 纸 上 更 好 ， 而 最 好 的 方法 则 是 在 白板 上 或 是 在 文本 编辑 器 中 记录 它们 ， 这 样 可 
以 方便 地 添加 或 是 擦 除 记 录 。 


9.2.1 进行 一 次 基准 测量 

正如 在 3.2.2 节 中 所 提 到 的 ， 对 未 优化 的 代码 进行 性 能 测量 非常 重要 ， 这 样 能 够 得 到 基准 
测量 值 来 帮助 我 们 确定 优化 是 否 有 效果 。 

我 为 在 9.1 节 中 创建 的 表 编 写 了 一 个 测试 。 在 这 项 测试 中 总 共 查 找 了 53 个 对 象 ， 其 中 包含 
表 中 存在 的 26 个 值 和 不 存在 的 27 个 值 。 为 了 得 到 一 个 可 测量 的 持续 时 间 ， 我 重复 进行 了 
100 万 次 这 个 测试 。 结 果 是 对 于 以 字符 串 为 键 的 map， 这 有 段 程序 运行 了 大 约 2310 毫秒 。 


9.2.2 ”识别 出 待 优 化 的 活动 

下 一 步 是 识别 出 待 优化 的 活动 ， 这 样 就 可 以 将 活动 细 分 ， 便 于 找 出 需要 优化 的 组 件 。 
虽然 哪些 是 “ 待 优 化 的 活动 ”是 由 开发 人 员 进 行 判断 的 ， 但 是 也 有 一 些 线索 可 以 帮助 我 们 
进行 判断 。 在 本 例 中 ， 开 发 人 员 可 以 看 到 ， 在 基准 实现 方式 中 使 用 了 以 std: :string 为 键 
的 std: :map。 通 过 查看 分 析 器 结果 可 以 发 现 std::map::find() 是 热点 代码 ， 它 是 一 个 在 查 
找到 元 素 时 返回 指向 该 元 素 的 迭代 器 ， 在 未 查找 到 元 素 时 返回 指向 end() 的 迭代 器 的 函数 。 
尽管 std: :map 支持 查找 、 插 入 、 删 除 和 迭代 等 多 种 操作 ， 但 是 热点 函数 只 是 进行 了 查找 
操作 。 因 此 ， 可 能 有 必要 检查 一 下 代码 中 的 其 他 地 方 ， 看 看 它们 是 否 在 表 上 执行 了 其 他 操 
作 。 找 出 表 是 在 哪里 被 构造 和 被 销毁 的 非常 有 意思 ， 因 为 这 些 活动 可 能 会 非常 耗 时 。 


在 本 例 中 ， 待 优化 的 活动 非常 明显 : 在 以 字符 串 作 为 键 的 map 实现 的 键 值 对 表 中 查找 值 
的 活动 。 不 过 ， 对 基准 解决 方法 进行 抽象 非常 重要 。 开 发 人 员 不 能 仅仅 局 限于 调查 使 用 
std::string 和 std: :map 构建 的 表 。 


有 一 种 称 为 “向 后 思考 ， 向 前 思考 ”的 技巧 可 以 帮助 我 们 将 基准 实现 抽象 为 问题 描述 。 向 
后 思考 的 技巧 是 提问 :“ 为 什么 ? ”为 什么 基准 实现 使 用 了 std: :map 而 不 是 其 他 数据 结 
构 ? 答案 非常 明显 : std: :map 提供 了 根据 给 定 的 键 查找 对 应 值 的 功能 。 为 什么 基准 实现 使 
用 std: :string， 而 不 是 int 或 指向 Foo 的 指针 ? 答案 是 ， 键 是 由 ASCII 字符 组 成 的 字符 
串 。 这 样 的 分 析 能 够 引导 开发 人 员 写 出 更 加 抽象 的 问题 描述 一 一 以 文本 类 型 的 键 查找 键 值 
对 表 中 的 值 。 请 注意 在 这 名 描述 中 没有 出 现 map 和 字符 串 等 术语 。 这 是 一 种 有 意识 地 将 问 
题 描 述 从 它 的 基准 实现 中 解放 出 来 的 尝试 。 


9.2.3 分解 待 优化 的 活动 

下 一 步 要 将 待 优化 的 活动 分 解 为 组 件 算法 和 数据 结构 。 这 里 ， 我 们 再 次 使 用 基准 解决 方法 
(以 字符 串 作 为 键 的 map) 作为 算法 和 数据 结构 组 成 活动 的 示例 。 不 过 ， 基 准 解决 方法 代表 
了 活动 的 一 种 实现 方式 ， 而 性 能 优化 开发 人 员 要 寻找 其 他 可 能 的 实现 方式 。 这 就 是 为 什么 
以 一 种 通用 的 方式 描述 算法 和 数据 结构 非常 重要 了 ， 因 为 这 样 不 会 将 开发 人 员 的 思维 限制 
在 现 有 的 解决 方案 上 。 
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待 优化 的 活动 是 以 文本 作为 键 在 键 值 对 表 中 查找 值 。 将 这 名 描述 分 解 为 组 件 算法 和 数据 结 
构 ， 并 检查 其 与 基准 实现 的 对 比 结果 ， 可 以 得 到 以 下 结论 。 


(1) 表 是 一 种 包含 键 和 键 所 关联 的 值 的 数据 结构 。 

(2) 键 是 一 种 包含 文本 的 数据 结构 。 

(3) 有 一 种 比较 键 的 算法 。 

(4) 有 一 种 查询 表 数 据 结构 以 判断 键 是 否 存在 ， 如 果 存在 就 取得 它 所 关联 的 值 的 算法 。 
(5) 有 一 种 构造 表 或 是 向 表 中 插入 键 的 算法 。 


我 是 如 何 知道 需要 这 些 组 件 的 呢 ? 多 数 情况 下 都 是 通过 查看 基准 解决 方案 的 数据 结构 (在 
本 例 中 即 是 std: :map) 的 定义 知道 的 。 


(1) 在 基准 解决 方案 中 ， 表 是 std: :map。 

(2) 在 基准 解决 方案 中 ， 键 是 std: :string 的 实例 。 

(G3) 部 分 是 逻辑 思考 的 结果 ， 但 是 也 可 以 通过 std: :map 的 模板 定义 提供 了 一 个 用 于 指定 比 
较 键 的 函数 的 默认 参数 看 出 来 。 

(4) 在 热点 函数 中 有 对 std: :map: :find() 的 调用 ， 而 没有 使 用 [] 运算 符 。 

(5) 这 源 自我 知道 必须 构造 和 销毁 map。 对 std: :map 的 了 解 让 我 知道 它 的 实现 方式 是 一 棵 平 
衡 二 又 树 。 因 此 ，map 是 一 种 链 式 数据 结构 ， 必 须 被 逐 节 点 构造 ， 所 以 一 定 存在 一 种 插 
入 算法 。 

关于 最 后 一 条 ， 构 建 和 销毁 表 的 算法 (以 及 它 的 时 间 开 销 ) 常常 被 忽视 了 。 这 种 开销 可 能 

会 非常 大 。 即 使 与 查找 表 操 作 的 时 间 开 销 相 比 ， 这 种 开销 很 小 ， 但 如 果 表 具有 静态 存储 期 

(请 参见 6.1.1 节 )， 那 么 初始 化 表 的 开销 可 能 会 被 加 到 所 有 在 程序 启动 时 发 生 的 其 他 初始 

化 操作 上 (请 参见 12.3.6 节 )。 如 果 程 序 需要 进行 太 多 的 初始 化 操作 ， 那 么 它 会 失去 响应 。 

而 如 果 表 具有 自动 存储 期 ， 那 么 它 可 能 会 在 程序 运行 期 间 中 多 次 被 初始 化 ， 使 程序 的 启动 

开销 变 得 更 大 。 幸 运 的 是 ， 我 们 还 有 其 他 只 具有 很 小 甚至 是 没有 创建 和 销毁 开销 的 实现 键 

值 对 表 的 方法 。 


9.2.4 修改 或 替换 算法 和 数据 结构 

在 这 一 步 中 ， 开 发 人 员 要 向 前 思考 ， 问 自己 :“ 怎 么 做 ? ”程序 应 该 如 何以 及 以 什么 样 不 
同 的 方式 查找 以 文本 作为 键 的 键 值 对 表 中 的 值 呢 ? 开发 人 员 需 要 寻找 基准 解决 方案 中 的 非 
最 优 算法 ， 寻 找 数据 结构 提供 的 开销 昂贵 的 、 非 被 优化 活动 所 必需 的 ， 因 此 可 以 被 移 除 或 
是 简化 的 行为 。 接 着 ， 开 发 人 员 进 行 性 能 测量 ， 确 认 性 能 是 否 有 所 提高 。 

在 待 优化 的 活动 中 有 如 下 优化 机 会。 


。 可 以 换 一 种 表 数 据 结构 或 是 提高 它 的 性 能 。 某 些 表 数 据 结构 的 选择 制约 了 查找 和 插入 算 
法 的 选择 。 如 果 在 数据 结构 中 包含 需要 调用 内 存 管理 器 的 动态 变量 ， 那 么 表 数 据 结 构 的 
选择 还 会 对 性 能 有 影响 。 

。 可 以 替换 一 种 键 数据 结 构 或 是 提高 它 的 性 能 。 

。 可 以 替换 一 种 比较 算法 或 是 提高 它 的 性 能 。 

。 尽管 查找 算法 受到 表 数 据 结 构 的 选择 的 制约 ， 但 是 我 们 仍然 可 以 替换 一 种 查找 算法 或 是 
提高 它 的 性 能 。 
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以 下 是 一 些 相关 的 观察 结果 。 


可 以 替换 一 种 插入 算法 《还 有 何 时 以 及 如 何 构造 和 销毁 数据 结构 的 方法 ) ， 或 是 提高 它 
们 的 性 能 。 

















std::map 的 实现 方式 是 一 棵 平衡 二 又 树 。 查 找平 衡 二 又 树 的 算法 的 时 间 开 销 是 
OUdogx)。 如 果 能 够 用 一 种 查找 开销 更 小 的 数据 结构 替代 std: :map， 那 么 就 可 以 得 到 最 
大 的 性 能 提升 。 
快速 浏览 下 std::map 的 定义 会 发 现 ， 在 map 上 定义 的 操作 有 插入 元 素 到 map 中 ， 查 
找 map 中 的 元 素 ， 从 map 中 删除 元 素 ， 以 及 遍历 map 中 的 元 素 。 为 了 实现 这 些 操作 ， 
std: :map 被 设计 为 一 种 基于 节点 的 数据 结构 ， 结 果 导 致 std: :map 在 被 构造 时 会 频繁 地 
调用 内 存 管理 器 ， 而 且 缓存 局 部 性 也 很 差 。 在 这 项 待 优化 的 活动 中 ， 元 素 只 会 在 构造 表 
时 被 插入 到 表 中 ， 并 且 除 非 表 自身 被 删除 了 ， 否 则 这 些 元 素 永 远 不 会 被 从 表 中 删除 。 使 
一 种 动态 性 稍 差 ， 但 可 以 减少 对 内 存 分 配器 的 调用 而 且 还 具有 更 好 的 缓存 局 部 性 的 数 
据 结构 替换 map， 就 可 以 提高 程序 性 能 。 
键 数据 结构 所 需要 的 功能 只 是 保存 字符 和 比较 两 个 键 。 相 比 于 表 中 的 键 的 需求 ， 
std: :string 提供 了 太 多 多 余 的 功能 。 字 符 串 会 维护 一 段 动态 分 配 的 缓存 ， 这 样 我 们 
就 可 以 修改 字符 串 中 的 内 容 或 是 让 字符 串 变 长 或 变 短 ,但 是 在 本 例 中 ， 键 值 对 表 并 
` 会 修改 键 。 而 且 ， 查 找 一 个 字符 串 字 面 常量 会 导致 发 生 一 次 从 字符 串 字 面 常量 到 
std: :string 的 开销 昂贵 的 类 型 转换 ， 如 果 可 以 使 用 其 他 数据 结构 作为 键 ， 那 么 就 可 以 
避免 这 种 类 型 转换 。 

std: :string 的 实例 的 行为 与 值 对 象 类 似 。std: :string 定义 了 所 有 的 六 种 比较 操作 符 ， 
这 样 我 们 就 可 以 通过 比较 字符 串 的 大 小 来 对 字符 串 进 行 排序 。std: :map 默认 可 以 与 那些 
以 值 对 象 、 实 现 了 比较 运算 符 的 键 类 型 一 起 工作 。 对 于 没有 定义 自己 的 比较 运算 符 的 
据 结构 ， 我 们 可 以 提供 一 个 比较 函数 作为 模板 参数 来 使 其 能 够 与 std: :map 一 起 工作 。 
前 ， 我 们 对 使 用 初始 化 列表 对 以 字符 串 作 为 键 的 map 进行 了 C++11 风格 的 初始 化 ， 
看 起 来 与 C 风格 的 静态 集合 初始 化 类 似 ， 但 是 其 实 它们 并 不 一 样 。 这 种 初始 化 方式 
首先 调用 内 存 分 配器 分 别 为 每 个 字符 串 字 面 常量 创建 出 各 自 对 应 的 std: :string， 接 
着 调用 insert() 向 map 添加 逐一 元 素 ， 这 会 再 次 调用 分 配器 在 map 的 平衡 树 数据 结构 
中 分 配 一 个 新 的 节点 。 这 种 初始 化 器 的 优点 在 于 它 初始 化 后 的 表 是 常量 的 。 但 是 ， 运 行 
时 开销 则 几乎 与 C++ll 之 前 的 一 次 插入 一 个 值 的 方式 相同 。 而 通过 C 风格 的 静态 集合 
初始 化 构造 的 数据 结构 ， 在 被 构造 和 销毁 时 都 不 会 产生 运行 时 开销 。 
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六 NN 洋 壮 


























9.2.5 ”在 自 定义 抽象 上 应 用 优化 过 程 


在 以 字符 串 作 为 键 的 map 的 例子 中 ， 开 发 人 员 是 很 幸运 的 ， 因 为 std: :map 的 许多 方面 都 是 
可 编程 的 ， 例 如 可 以 设置 键 类 型 ， 改 变 键 类 型 的 比较 算法 ， 编 写 map 分 配 市 点 的 方式 。 而 


且 ， 





























在 C++ 标准 库 中 ， 除 了 std::map 外 ， 还 有 其 他 选择 允许 改善 数据 结构 和 查找 算法 。 











简 言 之 ， 这 就 是 我 们 可 以 如 此 高 效 地 提高 C++ 程序 性 能 的 原因 。 在 下 面 的 小 节 中 我 将 会 带 
领 读 者 一 起 经 历 一 次 这 个 过 程 。 

















上 再 


i 列举 出 的 优化 过 程 也 适用 于 优化 非 标准 库 抽象 ， 但 是 可 能 需要 进行 一 些 其 他 工作 。 














std::map 和 std::string 都 是 具有 良好 设计 和 良好 文档 记录 的 数据 结构 。 互 联网 上 有 一 些 
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非常 棒 的 资源 ， 可 以 告诉 我 们 它们 支持 什么 样 的 运算 以 及 它们 是 如 何 实现 的 。 而 对 于 一 个 
自 定 义 的 抽象 ， 如 果 这 种 抽象 是 在 深思 熟 虑 后 设计 出 来 的 ， 那 么 开发 人 员 可 以 从 它 的 头 文 
件 中 知道 它 提 供 了 哪些 运算 。 从 代码 注释 或 是 具有 良好 设计 的 代码 中 ， 我 们 可 以 知道 它 使 
用 了 哪些 算法 以 及 它 调 用 内 存 管理 器 的 频率 。 

但 是 如 果 代 码 一 团 粮 ， 或 是 接口 设计 非常 糟糕 ， 代 码 散 落 在 许多 文件 中 ， 那 么 接 下 来 我 有 
一 个 坏 消息 和 一 个 好 消息 要 告诉 你 。 坏 消息 是 上 面 列举 出 的 优化 过 程 对 于 开发 人 员 没 有 任 
何 帮 助 。 这 种 情况 下 我 所 能 说 的 都 是 套话 ， 如 “在 你 接手 这 项 工作 的 时 候 就 知道 这 是 很 危 
险 的 ”和 “这 就 是 为 什么 你 能 赚 大 钱 ” 等 。 好 消息 是 代码 越 粳 糕 ， 其 中 绚 藏 优化 机 会 的 可 
能 性 也 越 大 ， 那 些 敢 于 着 手 的 开发 人 员 将 会 获得 丰厚 的 性 能 回报 。 


9.3 优化 std: :map 的 查找 


性 能 优化 开发 人 员 可 以 通过 保持 表 数 据 结 构 不 变 ， 但 改变 键 的 数据 结构 ， 当 然 也 包括 改变 
比较 键 的 算法 ， 改 善 程序 性 能 。 


9.3.1 以 固定 长 度 的 字符 数组 作为 std: :map 的 键 


正如 第 4 章 中 所 指出 的 ,开发 人 员 可 能 希望 避免 在 热点 代码 的 键 值 对 表 中 使 用 std: :string 
作为 键 所 带 来 的 开销 ， 因 为 内 存 分 配 占据 了 绝 大 部 分 创建 表 的 开销 。 如 果 开 发 人 员 可 以 使 
用 一 种 不 会 动态 分 配 存储 空间 的 数据 结构 作为 键 类 型 ， 就 能 够 将 这 个 开销 减 半 。 而 且 ， 如 
果 表 使 用 std: :string 作为 键 ， 而 开发 人 员 和 希望 如 下 这 样 用 C 风格 的 字符 串 字 面 常 量 来 查 
找 元 素 ， 那 么 每 次 查找 都 会 将 char* 的 字符 串 字面 常量 转换 为 std: :string， 其 代价 是 分 配 
更 多 的 内 存 ， 而 且 这 些 内 存 紧 接着 会 立即 被 销毁 掉 。 


unsigned val = table["zulu"]; 


如 果 键 的 最 大 长 度 不 是 特别 大 ， 那 么 一 种 解决 方法 是 使 用 足以 包含 最 长 键 的 字符 数组 作 
为 键 的 类 型 。 不 过 这 里 我 们 无 法 像 下 面 这 样 直接 使 用 数组 ， 因 为 C++ 数组 没有 内 置 的 比 
较 运算 符 。 


std: :map<char[10] ,unsigned> table 


下 面 是 一 个 名 为 charbuf 的 简单 的 固定 长 度 字符 数组 模板 类 的 定义 : 


template <unsigned N=10, typename T=char> struct charbuf { 
charbuf(); 
charbuf(charbuf const& cb); 
charbuf(T const* p); 
charbuf& operator=(charbuf const& rhs); 
charbuf& operator=(T const* rhs); 





















































































































































bool operator==(charbuf const& that) const; 
bool operator<(charbuf const& that) const; 


private: 
T data_[N]; 
}; 
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charbuf 非常 简单 。 我 们 可 以 用 C 风格 的 、 以 空 字 符 结 尾 的 字符 串 来 对 它 进 行 初始 化 或 是 
赋值 ， 也 可 以 用 一 个 charbuf 与 另 一 个 charbuf 进行 比较 。 由 于 这 里 没有 明确 地 定义 构造 
函数 charbuf(T const*)， 因 此 我 们 还 可 以 通过 类 型 转换 将 charbuf 与 一 个 以 空 字符 结尾 的 
字符 串 进行 比较 。charbuf 的 长 度 是 在 编译 时 就 确定 了 的 ， 它 不 会 动态 分 配 内 存 。 

离开 了 运算 符 的 定义 ，C++ 是 不 知道 如 何 比 较 两 个 类 的 实例 或 是 如 何 对 它们 进行 排序 的 。 
开发 人 员 必 须 定义 他 需要 使 用 的 所 有 相关 运算 符 。C++ 标准 库 通 常 只 会 使 用 == 运算 符 和 < 
运算 符 。 其 他 四 种 运算 符 可 以 从 这 两 种 中 合成 出 来 。 运 算 符 的 定义 可 以 是 非 成 员 函 数 : 


template <unsigned N=10, typename T=char> 
bool operator<(charbuf<N,T> const& cb1i, charbuf<N,T> const& cb2); 





























但 是 一 种 更 简单 和 更 好 的 办 法 是 ， 在 charbuf 中 定义 会 访问 charbuf 的 实现 的 Cr+ 风格 的 
< 运算 符 。 


程序 员 在 使 用 charbuf 时 需 仔 细 思 学 。 只 能 在 其 中 保存 长 度 小 于 它 内 部 存储 空间 大 小 的 字 
符 串 ， 这 里 还 要 将 最 后 一 个 字符 串 结束 符 算 进去 。 因 此 与 std::string 相 比 ， 无 法 确保 它 
的 安全 性 。 验 证 所 有 可 能 的 键 都 可 以 被 存储 在 charbuf 中 ， 是 将 计算 从 运行 时 移动 到 设计 
时 的 一 个 例子 。 同 时 ， 这 也 是 为 了 改善 性 能 而 在 安全 性 上 作出 妥协 的 一 个 例子 。 只 有 那些 
独立 的 设计 团队 才能 洞察 出 这 种 改动 的 收益 是 否 大 于 风险 ， 权 威 专家 的 凭空 判断 不 可 信 。 
我 在 以 charbuf 类 型 作为 键 的 std: :map 中 ， 使 用 与 之 前 相同 的 53 个 名 字 进 行 了 100 测试 ， 
结果 是 耗 时 1331 毫秒 。 这 个 速度 比 使 用 std: :string 的 版 本 快 了 一 倍 。 


9.3.2 ”以 C 风 格 的 字符 串 组 作为 键 使 用 std: :map 

有 时 ， 程 序 会 访问 那些 存储 期 很 长 的 、C 风格 的 、 以 空 字符 结尾 的 字符 串 ， 那 么 我 们 就 可 
以 用 这 些 字符 串 的 charx 指针 作为 std: :nap 的 键 。 例 如 ， 当 程序 使 用 C++ 字符 串 字 面 党 
量 来 构造 表 时 ， 我 们 可 以 直接 使 用 char* 来 吕 免 构造 和 销毁 std: :string 的 实例 的 开销 。 


不 过 ， 以 char* 作为 键 类 型 也 有 一 个 问题 。std: :map 会 在 它 的 内 部 数据 结构 中 ， 依 据 键 类 
型 的 排序 规则 对 键 值 对 进行 排序 。 默 认 情况 下 ， 它 都 会 计算 表达 式 key1 < key2 的 值 。 在 
std: :string 中 定义 了 一 个 用 于 比较 字符 串 的 < 运算 符 。 虽 然 在 char* 中 也 定义 了 < 运算 
符 ， 但 它 比 较 的 却 是 指针 ， 而 不 是 指针 所 指向 的 字符 串 。 

std: :map 让 开发 人 员 能 够 通过 提供 一 个 非 默 认 的 比较 算法 来 解决 这 个 问题 。 这 也 是 C++ 允 
许 开 发 人 员 对 它 的 标准 容器 进行 精准 控制 的 一 个 例子 。 比 较 算 法 是 通过 std: :map 的 第 三 个 
模板 参数 提供 的 。 比 较 算 法 的 默认 值 是 国 数 对 象 std::less<Key>。std::less 定义 了 一 个 
成 员 国 数 bool operator()(Key const& k1，Key const& k2)， 它 会 通过 返回 表达 式 keyl < 
key2 的 结果 来 比较 两 个 键 的 大 小 。 

原则 上 ， 程 序 能 够 对 char* 特 化 std: :less。 不 过 ， 这 种 特 化 必须 至 少 对 整个 文件 都 是 可 见 
的 ， 这 可 能 会 导致 程序 中 的 其 他 部 分 出 现 意 外 行为 。 
如 代码 清单 9-1 所 示 ， 我 们 可 以 不 使 用 函数 对 象 ， 而 是 使 用 C 风格 的 非 成 员 函 数 来 执行 比 
较 运算 。 这 时 ， 该 函数 的 签名 变 为 了 map 声明 中 的 第 三 个 参数 ， 我 们 可 以 用 一 个 指向 该 函 
数 的 指针 来 初始 化 map。 
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代码 清单 9-1 以 C 风格 的 char* 作为 键 、 非 成 员 函 数 作 为 比较 函数 的 map 


bool less_ free(char const* pi, char const* p2) { 
return strcmp(p1,p2)<0; 
} 


std: :map<char const*, 
unsigned, 
bool(*)(char const*,char const*)> table(less free); 


这 个 版 本 的 测试 结果 是 1450 训 秒 ， 与 使 用 以 std: :string 为 键 的 版 本 相 比 有 了 显著 的 性 能 
提升 。 


程序 还 可 以 创建 一 个 函数 对 象 来 封装 比较 操作 。 在 代码 清单 9-2 中 ，less_for_c_strings 
是 一 个 类 类 型 的 名 字 ， 因 此 它 可 以 用 作 类 型 参数 ， 这 样 就 无 需 使 用 指针 。 


代码 清单 9-2 以 C 风格 的 char* 作为 键 、 国 数 对 象 作为 比较 国 数 的 map 
struct less_for_c strings { 


bool operator()(char const* pi, char const* p2) { 
return strcmp(p1,p2)<0; 














} 
BE 


std: :map<char const*, 
unsigned, 
Less_for_c_strings> table; 


这 个 版 本 的 测试 结果 是 820 毫秒 ， 它 的 速度 几乎 是 初始 版 本 的 三 倍 ， 是 char* 和 非 成 员 国 
数 版 本 的 两 倍 。 

在 C++11 中 ， 另 外 一 种 为 std::map 提供 char* 比较 函数 的 方法 是 ， 定 义 一 个 lambda 表达 
式 并 将 它 传递 给 map 的 构造 函数 。 使 用 lambda 表达 式 非 常 便利 ， 因 为 我 们 可 以 在 局 部 定义 
它们 ， 而 且 它 们 的 声明 语法 也 非常 简洁 。 代 码 清单 9-3 展示 了 这 种 方法 。 

代码 清单 9-3 以 C 风格 的 char* 作为 键 、lambda 表达 式 作 为 比较 函数 的 map 


auto comp = [](char const* pi1, char const* p2) { 
return strcmp(p1,p2)<0; 





















































}; 
std: :map<char const*, 
unsigned, 
decltype(comp)> table(comp); 


请 注意 ， 这 上段 示例 代码 中 使 用 了 C++11 中 的 dectltype 关键 字 。map 的 第 三 个 参数 是 一 个 类 
型 。 名 字 comp 是 一 个 变量 ， 而 decltype(comp) 则 是 变量 的 类 型 。lambda 表达 式 的 类 型 没 
有 名 字 ， 每 个 lambda 表达 式 的 类 型 都 是 唯一 的 ， 因 此 decltype 是 获得 lambda 表达 式 的 类 
型 的 唯一 方法 。 


在 这 段 示例 代码 中 ，lambda 表达 式 的 行为 类 似 于 一 个 带 有 () 运算 符 的 函数 对 象 ， 因 此 尽 
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管 lambda 表达 式 必 须 作 为 参数 传递 给 构造 函数 ， 但 这 种 机 制 的 性 能 测量 结果 与 之 前 的 版 
本 相同 。 

对 于 一 个 以 空 字符 结尾 的 字符 串 为 键 的 表 ， 改 善后 的 最 佳 性 能 约 是 初始 版 本 的 三 倍 ， 即 使 
与 使 用 固定 长 度 的 字符 数组 为 键 的 版 本 相 比 也 提高 了 55% 。 
































C++ 与 Visual Studio 编译 器 


由 于 Visual Studio 标准 库 实 现 中 的 一 个 已 知 的 bug， 在 编译 代码 清单 9-3 中 的 代码 时 ， 
Visual Studio 2012 和 Visual Studio 2013 会 报 出 一 条 错误 信息 ，Visual Studio 2010 和 
Visual Studio 2015 则 不 会 。 


一 个 不 带 捕 获 (capture) 的 lambda 表达 式 居然 能 够 “退化 ”为 济 数 指针 ， 这 真是 
一 个 有 趣 的 Ct+ 现象 。 对 于 那些 真正 热爱 lambda 表达 式 声 明 的 Ct+ 编程 人 员 ， 在 
Visual Studio 2012 和 Visual Studio 2013 编译 器 上 也 是 有 办 法 使 用 lambda 表达 式 的 ， 
方法 就 是 将 lambda 表达 式 “ 退 化 ”后 的 函数 指针 的 签名 作为 map 的 构造 函数 的 第 三 
个 参数 : 

auto comp = [](char const* pi, char const* p2) { 

return strcmp(p1，p2)<0; 
}; 
std: :map<char const*, 


unsigned, 
bool(*)(char const*, char const*)> kvmap(comp); 


在 这 种 情况 下 ， 这 个 版 本 的 代码 的 性 能 实际 上 就 变 为 了 使 用 非 成 员 有 函数 指针 的 
std::map 的 性 能 ， 它 比 使 用 肠 数 对 象 的 std: :map 的 性 能 稍 慢 。 

随 着 C++ 标准 的 不 断 发 展 ，C++ 编译 器 也 能 够 进行 更 多 的 类 型 推演 ，lambda 表达 式 
也 会 变 得 越 来 越 有 意思 。 不 过 直到 2016 年 初 ， 还 没有 其 他 东西 在 性 能 上 能 超过 函数 
对 象 。 











9.3.3 ” 当 键 就 是 值 的 时 候 ， 使 用 map 的 表亲 std: :set 


定义 一 种 数据 结构 ， 其 中 包含 一 个 键 以 及 其 他 数据 作为 键 所 对 应 的 值 ， 有 些 程序 员 可 能 会 
觉得 这 是 一 件 再 自然 不 过 的 事 了 。 事 实 上 ，std: :map 在 内 部 声明 了 一 种 像 下 面 这 样 的 可 以 
结合 键 与 值 的 结构 体 : 
template <typename KeyType, typename ValueType> struct valuye type { 
KeyType const first; 
VaLueType second; 


// …… 构 造 函 数 和 赋值 运算 符 



































如 果 程 序 定义 了 这 样 一 种 数据 结构 ， 那 么 无 法 将 它 直 接 用 于 std: :map 中 。 出 于 一 些 实际 的 
原因 ，std: :map 要 求 键 和 值 必 须 分 开 定 义 。 键 必须 是 常量 ， 因 为 修改 键 会 导致 整个 map 数 
据 结构 无 效 。 同 样 ， 指 定 键 可 以 让 map 知道 如 何 访问 它 。 


























std: :map 有 一 个 表亲 一 一 std: :set。 它 是 一 种 可 以 保存 它们 自己 的 键 的 数据 结构 。 这 种 类 
型 会 使 用 一 个 比较 函数 ， 该 比较 函数 默认 使 用 std: :less 来 比较 两 个 完整 元 素 。 因 此 ， 要 
想 使 用 std: :set 和 一 种 包含 自身 的 键 的 用 户 自 定义 的 结构 体 ， 开 发 人 员 必 须 为 那个 用 户 自 
定义 的 结构 体 实现 std: :less、 指 定 < 运算 符 或 是 提供 一 个 非 默认 的 比较 对 象 。 这 其 中 没 
有 了 哪 一 种 方法 比 其 他 方法 更 好 ， 选 择 哪 一 种 方法 只 是 一 种 编程 风格 问题 。 


我 之 所 以 现在 提醒 读者 注意 这 一 点 ， 是 因为 当 我 说 道 “ 使 用 一 个 序列 容器 作为 键 值 对 
表 ” 时 ， 表 示 还 需要 为 元 素 的 数据 结构 定义 一 个 比较 运算 符 ， 或 是 为 查找 算法 指定 一 个 
比较 函数 。 


9.4 ”使 用 <algorithm> 头 文件 优化 算法 


在 上 一 市 中 ， 我 介绍 了 通过 改变 代表 键 的 数据 结构 以 及 相应 地 改变 比较 键 的 算法 来 提高 性 
能 的 方法 。 在 本 市 中 ， 我 将 会 介绍 改变 查找 算法 和 表 数 据 结构 的 方法 。 


除了 像 std: :string 和 std: :map 这 样 的 数据 结构 外 ，C++ 标准 库 还 提供 了 一 组 算法 ， 其 中 
就 包括 查找 和 排序 算法 。 标 准 库 算 法 接收 迭代 器 作为 参数 。 迭 代 器 抽象 了 指针 的 行为 ， 从 
包含 这 些 值 的 数据 结构 中 分 离 出 值 的 遍历 。 标 准 库 算 法 的 行为 是 通过 它们 的 迭代 器 参数 的 
抽象 行为 ， 而 不 是 由 某 些 具体 的 数据 结构 指定 的 。 基 于 迭代 器 的 算法 能 够 适用 于 许多 种 数 
据 结 构 ， 只 要 这 些 数据 结构 上 的 迭代 器 具有 所 需 的 特性 即 可 。 

标准 库 查 找 算法 接收 两 个 迭代 器 参数 ， 一 个 指向 待 查找 序列 的 开始 位 置 ， 另 一 个 则 指向 待 
查找 序列 的 末尾 位 置 (最 后 一 个 元 素 的 下 一 个 位 置 )。 所 有 的 算法 还 都 接收 一 个 要 查找 的 
键 作为 参数 以 及 一 个 可 选 的 比较 函数 参数 。 这 些 算法 的 区 别 在 于 它们 的 返回 值 ， 以 及 比较 
函数 必须 定义 键 的 排序 关系 还 是 只 是 比较 是 否 相 等 。 


我 们 可 以 将 待 查 找 的 数据 结构 部 分 描述 为 范围 [first，Last)， 其 中 first 的 左 侧 方 括号 表 
明 第 一 个 元 素 包 括 在 这 个 范围 内 ， 而 Last 后 面 的 圆 括号 则 表示 最 后 一 个 元 素 不 包含 在 这 个 
范围 内 。 这 种 范围 表达 式 在 标准 库 算法 的 描述 中 非常 有 用 。 

有 些 基 于 返 代 器 的 查找 方法 实现 了 分 而 治之 的 算法 。 这 些 算法 依赖 于 某 些 迭代 器 的 一 种 特 
性 一 一 计算 两 个 迭代 器 之 间 的 距离 或 是 元 素数 量 的 能 力 一 一 以 这 种 方法 实现 比 线性 大 0 性 
能 更 高 的 性 能 。 通 过 逐 源 增 大 友 代 器 直到 与 另 一 个 迭代 器 相等 ， 总 是 能 够 计算 出 两 个 欠 代 
器 之 间 的 距离 ， 但 是 这 会 导致 计算 距离 的 时 间 开 销 变 为 O(n)。 随 机 访问 迭代 器 具有 一 种 特 
殊 的 特性 ， 即 它 能 够 以 常量 时 间 计 算出 这 个 距离 。 

提供 了 随机 访问 迭代 器 的 序列 容器 有 C 风 格 的 数组 、std::string、std: :vector 和 
std: :deque。 分 而 治之 算法 也 能 够 适用 于 std: :Litst， 但 是 它们 的 时 间 开 销 是 O(n)， 而 不 是 
O(logxn)， 因 为 计算 双向 迭代 器 之 间 的 距离 的 开销 更 大 。 

string 和 map 的 名 字 很 容易 让 人 联想 起 它们 的 功能 ， 因 此 可 能 会 让 编程 新 手 不 自觉 地 使 用 
这 些 数 据 类 型 来 解决 问题 。 不 幸 的 是 ， 并 非 所 有 基于 迭代 器 的 查找 算法 都 有 让 人 容易 联想 
到 功能 的 名 字 。 它 们 同样 都 非常 通用 ， 这 样 选择 一 种 正确 的 算法 会 带 来 性 能 上 的 提升 ， 尽 
管 它 们 都 具有 相同 的 大 O 时 间 开 销 。 
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9.4.1 以 序列 容器 作为 被 查找 的 键 值 对 表 


相 比 于 std: :map 或 它 的 表亲 std: :set， 有 儿 个 理由 使 得 选择 序列 容器 实现 键 值 对 表 更 好 : 
序列 容器 消耗 的 内 存 比 map 少 ， 它 们 的 启动 开销 也 更 小 。 标 准 库 算 法 的 一 个 非常 有 用 的 
特性 是 它们 能 够 遍历 任意 类 型 的 普通 数组 ， 因 此 ， 它 们 能 够 高 效 地 查找 静态 初始 化 的 结 
构 体 的 数组 。 这 样 可 以 移 除 所 有 启动 表 的 开销 和 销毁 表 的 开销 。 而 且 ， 诸 如 MISRA C++ 
(http://www.misra-cpp.com) 等 编码 标准 都 禁止 或 是 限制 了 动态 分 配 内 存 的 数据 结构 的 使 
用 。 因 此 ， 使 用 序列 容器 是 一 种 能 够 高 效 地 在 这 些 环境 中 进行 查找 的 解决 方案 。 


本 节 中 的 示例 代码 使 用 了 如 下 定义 的 结构 体 : 
struct kv { // ( 键 , 值 ) 对 


char const* key; 
unsigned ”value; // 可 以 是 任何 类 型 























js 
由 这 些 键 值 对 构成 的 静态 数组 的 定义 如 下 : 


kv names[] = {// 以 字母 顺序 排序 

"alpha", 1 }， { "bravo", 2 入 
Wehgrtie 3 "delta", 4 }， 
"echo", 5 By "foxtrot", 6 }, 
"golf", 7 }， "hotel", 8 
"india", 9 }, "juliet", 10 }, 
Me "lima", 12 }， 
"mike", 13 4}; "november",14 }, 
"oscar", :15-}, "papa", 16 }， 
"quebec", 17 }, "romeo", 18 }, 
"sierra", 19 }, "tango", 20 }， 
"uniform",21 }, "Vietor"s. :22 5 
"whiskey" ,23 }, "x-ray", 24 }， 
"yankee", 25 }, "zulu", 26 } 








SR PN 
i YY 


下 


names 数组 的 初始 化 是 静态 集合 初始 化 。C++ 编译 器 会 在 编译 时 为 C 风格 的 结构 体 创建 初 
始 化 数据 。 创 建 这 样 的 数组 不 会 有 任何 运行 时 开销 。 


我 们 通过 在 这 张 小 型 表 中 查找 26 个 键 和 27 个 不 存在 于 表 中 的 字符 串 来 测量 这 些 算法 。 
为 了 得 到 可 测量 的 时 间 ， 我 们 会 重复 100 万 次 这 53 次 查找 。 这 个 测试 与 上 一 节 中 对 
std: :map 进行 的 测试 是 相同 的 。 


标准 库容 器 类 提供 了 begin() 和 end() 成 员 函 数 ， 这 样 程序 就 能 够 得 到 一 个 指向 待 查找 范 
围 的 迭代 器 。C 风格 的 数组 更 加 简单 ， 通 常 没有 提供 这 些 函 数 。 不 过 ， 我 们 可 以 通过 用 一 
点 模板 “魔法 ”提供 类 型 安全 的 模板 函数 来 实现 这 个 需求 。 由 于 它们 接收 一 个 数组 类 型 作 
为 参数 ， 数 组 并 不 会 像 通 常 那样 退化 为 一 个 指针 : 

// 得 到 C 风 格 数组 的 大 小 和 起 始 或 终止 位 置 

template <typename T, int N> size t size(T (&a)[N]) { 


return N; 


} 
template <typename T, int N> T* begin(T (&a)[N]) { 
return &a[0]; 
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} 
template <typename T, int N> T* end(T (&a)[N]) { 
return &a[N]; 


} 


在 C++11 中 ， 我 们 可 以 在 头 文件 中 的 命名 空间 std 中 ， 找 到 使 用 相同 的 模板 “魔法 ” 实 
现 的 更 复杂 的 begin() 和 end() 的 定义 。 包 含 任何 一 个 标准 库容 器 类 头 文件 时 ， 都 会 包 
含 这 个 头 文件 。Visual Studio 2010 预见 到 了 这 个 标准 ， 提 前 提供 了 这 些 定义 。 不 幸 的 是 ， 
size() 直到 C++14 才 被 纳入 标准 ， 因 此 该 方法 并 没有 出 现在 Visual Studio 2010 中 ， 但 我 
们 很 容易 提供 一 个 简单 的 等 效 函数 。 


9.4.2 std::find(): 功能 如 其 名 ，O(m) 时 间 开 销 
在 标准 库 <algorithm> 头 文件 中 如 下 定义 了 一 个 模板 函数 find(): 
template <class It, class T> It find(It first, It last, const T& key) 


find() 是 一 个 简单 的 线性 查找 算法 。 线 性 查找 是 最 通用 的 查找 方式 。 它 不 需要 待 查 找 的 数 
据 已 经 排序 完成 ， 只 需要 能 够 比较 两 个 键 是 否 相 等 即 可 。 


find() 返回 指向 序列 容器 中 第 一 条 与 待 查 找 的 键 相 等 的 元 素 的 迭代 器 。 和 迭代 器 参数 first 
和 tast 限定 了 待 查 找 的 范围 ， 其 中 Last 指向 待 查 找 数据 的 末尾 的 后 一 个 元 素 。first 
和 Last 的 类 型 是 通过 模板 参数 It 指定 的 ， 这 取决 于 find() 要 遍历 的 数据 结构 的 类 型 。 
find() 的 用 法 示例 如 代码 清单 9-4 所 示 。 


代码 清单 9-4 ”使 用 std: :find() 进行 线性 查找 


kv* result=std::find(std::begin(names), std::end(names), key); 


在 这 段 示 例 代码 中 ，names 是 待 查找 的 数组 的 名 字 。key 是 要 查找 的 关键 字 ， 它 会 与 每 条 
kv 元 素 进行 比较 。 要 想 进 行 比较 操作 ， 必 须 在 find() 被 实例 化 的 作用 域内 定义 用 于 比较 
关键 字 的 函数 。 该 函数 会 告诉 std: :find() 在 进行 比较 时 所 需 知 道 的 一 切 信 息 。C++ 允许 
为 各 种 类 型 的 一 对 值 重 载 等 号 运算 符 bool operator==(v1,v2)。 如 果 键 是 一 个 指向 char 的 
间 针 ， 那 么 所 需 的 比较 关键 字 的 国 数 就 是 ; 
bool operator==(kv const& n1，char const* key) { 

return strcmp(n1.key，key) == 0; 
























































} 
使 用 std: :find() 在 有 26 个 元 素 的 表 中 查找 键 的 性 能 测试 结果 是 耗 时 1425 毫秒 。 
find() 函数 的 一 种 变化 形式 是 find_if()， 它 接收 比较 函数 作为 第 四 个 参数 。 这 里 开发 人 
员 不 用 在 find() 的 作用 域 中 定义 operator==()， 而 是 可 以 编写 一 个 lambda 表达 式 作 为 比 
较 函 数 。lambda 表达 式 只 接收 一 个 参数 一 一 要 进行 比较 的 表 元 素 。 因 此 ，lambda 表达 式 必 
须 从 环境 中 捕捉 键 值 。 
































9.4.3 std::binary_search(); 不 返回 值 
二 分 查找 一 种 常用 的 分 而 治之 的 策略 ， 在 C++ 标准 库 中 ， 有 几 种 不 同 的 算法 都 使 用 了 它 。 
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但 是 出 于 某 些 原因 ，binary_search 这 个 名 字 却 被 用 于 男 外 一 种 不 常用 的 查找 算法 。 


标准 库 算 法 binary_search() 返回 一 个 bool 值 ， 表 示 键 是 否 存 在 于 有 序 表 中 。 非 常 奇 
怪 的 是 ， 标 准 库 却 没 有 提供 配套 的 返回 匹配 的 表 元 素 的 函数 。 因 此 ，find() 和 binary_ 
search() 虽然 从 名 字 上 看 都 像 是 我 们 要 找 的 解决 方法 ， 但 其 实 不 然 。 


如 果 程 序 只 是 想 知 道 一 个 元 素 是 否 存在 于 表 中 ， 而 不 是 找到 它 的 值 ， 那 么 我 们 可 以 使 用 
binary_search()。 使 用 std: :binary_search() 的 性 能 测试 结果 是 972 上 毫秒。 


9.4.4 使 用 std: :equaL_range() 的 二 分 查找 


如 果 序 列 容器 是 有 序 的 ， 那 么 开发 人 员 能 够 从 C++ 标准 库 提 供 的 零 零散 散 的 国 数 中 组 合 出 
一 个 高 效 的 查找 函数 。 


不 幸 的 是 ， 这 些 零 零散 散 的 函数 的 名 字 都 难以 使 人 联想 起 二 分 查找 。 
在 C++ 标准 库 的 <aLgorithm> 头 文件 中 有 一 个 模板 国 数 std: :equaL_range()， 它 的 定义 如 下 : 


template <class ForwardIt, class T> 
std: :pair<ForwardIt,ForwardIt> 
equal_range(ForwardIt first, ForwardIt last, const T& value); 


equal_range() 会 返回 一 对 迭代 器 ， 它 们 确定 的 是 范围 是 有 序 序列 中 包含 要 查找 的 元 素 的 
子 序 列 [first， last)。 如 果 没 有 找到 元 素 ，equal_range() 会 返回 一 对 指向 相等 值 的 迭代 
器 ， 这 表示 这 个 范围 是 空 的 。 如 果 返 回 的 两 个 迭代 器 不 等 ,表示 至 少 找 到 了 一 条 元 素 。 由 
于 在 示例 问题 中 只 能 找到 一 个 元 素 ， 因 此 第 一 个 迭代 器 所 指向 的 就 是 找到 的 元 素 。 在 代码 
清单 9-5 中 ， 如 果 找 到 了 元 素 ， 就 将 result 设置 为 指向 找到 的 表 元 素 的 迭代 器 ， 否 则 设置 
就 将 result 设置 为 指向 表 的 末尾 的 迭代 器 。 


代码 清单 9-5 使 用 std: :equal_range() 的 二 分 查找 


auto res = std::equaL_range(std: :begin(names ) ， 
std::end(names ) ， 
key ) ; 
kv* result = (res.first == res.second) 
? std::end(names) 
: res.first; 


















































































































































对 相同 的 表 使 用 equal_range() 进行 查找 的 测量 结果 是 1810 上 毫秒。 这 让 人 很 失望 ， 因 为 这 
个 结果 比 在 相同 大 小 的 表 中 进行 线性 查找 更 慢 。 不 过 ， 至 少 我 们 知道 了 equaL_range() 并 
韭 是 二 分 查找 函数 的 最 住 选择 。 


9.4.5 使 用 std: :Lower_bound() 的 二 分 查找 


尽管 equal_range() 所 承诺 的 时 间 开销 是 O(logyn)， 但 除了 表 查 找 以 外 ， 它 还 有 其 他 不 必要 
的 功能 。equal_range() 的 一 种 可 能 实现 方式 看 起 来 像 下 面 这 样 : 
template <class It, class T> 


std: :pair<It,It> 
equaL_range(It first, It last, const T& value) { 
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return std::make_pair(std::lower_bound(first, last, value), 
std: :upper_bound(first, last, value)); 


} 


upper_bound() 会 在 表 中 第 二 次 分 而 治之 来 查找 要 返回 的 范围 的 末尾 ， 这 是 因为 equal_ 
range() 需要 足够 通用 ， 能 够 适用 于 任何 存在 一 个 键 对 应 多 个 值 的 有 序 序列 。 但 是 在 本 例 
中 的 表 中 ， 这 个 范围 要 么 包含 一 个 元 素 要 么 不 包含 任何 元 素 。 如 代码 清单 9-6 所 示 ， 其 实 
我 们 可 以 使 用 Lower_bound() 和 一 次 额外 的 比较 运算 来 进行 查找 就 足够 了 。 


代码 清单 9-6 ”使 用 std: :Lower_bound() 进行 二 分 查找 


kv* result = std::Lower_bound(std: :begin(names ) ， 
std: :end(names), 


key); 
if (result != std::end(names) && key < *result.key) 
result = std::end(names); 


在 这 个 例子 中 ，std: :Lower_bound() 返回 一 个 指向 表 中 键 大 于 等 于 key 的 第 一 个 元 素 的 
从 代 器 。 如 果 表 中 所 有 元 素 的 键 都 小 于 key， 那 么 它 会 返回 一 个 指向 表 末 尾 的 迭代 器 。 它 
也 可 能 会 返回 一 条 大 于 key 的 元 素 。 如 果 最 后 一 条 if 语句 中 的 所 有 条 件 都 是 true， 那 么 
result 会 被 设置 为 指向 表 末 尾 的 迭代 器 ， 否 则 ， 它 会 返回 键 等 于 key 的 元 素 。 

对 使 用 这 段 代码 查找 表 所 进行 的 性 能 测试 的 结果 是 973 毫秒 ， 比 使 用 std: :equaL_range() 的 版 
本 快 了 86%， 令 人 满意 。 这 种 方法 令 人 期 待 ， 因 为 它 所 进行 的 工作 几乎 具有 之 前 版 本 的 一 半 。 
使 用 std: :Lower_bound() 进行 查找 的 性 能 与 使 用 std: :map 的 最 佳 实现 方式 的 性 能 旗 鼓 
相当 ， 而 且 它 还 有 一 个 额外 的 优势 ， 那 就 是 构造 或 是 销毁 静态 表 是 没有 任何 开销 的 。 
std: :binary_search() 函数 版 的 测试 结果 也 是 973 毫秒 ， 不 过 它 只 返回 Boolean 型 的 结果 。 
看 起 来 这 是 我 们 使 用 C++ 标准 库 算 法 所 能 达到 的 性 能 极限 了 。 


9.4.6 ”自己 编写 二 分 查找 ; 


我 们 可 以 自己 编写 二 分 查找 法 ,使 其 所 接收 的 参数 与 标准 库 函 数 相同 。 标 准 库 算法 都 使 用 
一 个 单独 的 排序 函数 一 一 < 运算 符 ， 这 样 就 可 以 对 外 只 提供 最 小 的 接口 。 由 于 这 些 函 数 最 
终 都 需要 确定 是 否 存在 与 某 个 键 相 匹配 的 一 条 元 素 ， 因 此 最 后 它们 都 会 进行 一 次 比较 ， 而 
我 们 可 以 将 a == b 定 义 为 !(a < b) 8&& !(b < a)。 


我 们 将 初始 表 的 取 值 的 连续 范围 值 定义 为 [start，end)。 在 每 一 步 查找 中 ， 函 数 (代码 清 
单 9-7) 都 会 计算 取 值 范围 的 中 间 位 置 ， 并 将 键 与 中 间 位 置 的 元 素 进行 比较 。 这 种 方法 可 
以 高 效 地 将 表 的 取 值 范围 分 为 两 部 分 一 一 [start, mid+1) 和 [mtd+1，stop)。 


代码 清单 9-7 使 用 < 进行 比较 来 自己 编写 二 分 查找 
kv* find_binary_lessthan(kv* start, kv* end, char const* key) { 
kv* stop = end; 
while (start < stop) { 
auto mid = start + (stop-start)/2; 
if (*mid < key) {// 查找 右 半 部 分 [mid+1,stop) 
start = mid + 1; 
} 
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else {// 查找 左 半 部 分 [start,mid) 
stop = mid; 
} 
} 


return (start == end || key < *start) ? end : start; 


} 


对 这 个 版 本 的 二 分 查找 进行 的 性 能 测试 的 结果 是 968 毫秒 ， 与 之 前 使 用 std: :lower_ 
bound() 的 版 本 的 性 能 几乎 相同 。 


9.4.7 使 用 strcmp() 自 己 编写 二 分 查找 


如 果 注 意 到 < 运算 符 可 以 用 strcmp() 替换 ， 那 么 还 可 以 进一步 提高 性 能 。 与 < 运算 符 一 
样 ，strcmp() 也 会 对 两 个 键 进行 比较 ， 但 是 strcmp() 的 输出 结果 包含 的 信息 更 多 : 如 果 第 
一 个 键 小 于 、 等 于 、 大 于 第 二 个 键 ， 那 么 其 返回 结果 就 小 于 、 等 于 、 大 于 0。 代 码 清单 9-8 
展示 了 修改 后 的 代码 ， 它 看 起 来 就 像 是 用 C 语言 编写 的 一 样 。 


在 while 循环 的 每 次 迭代 中 ， 被 查找 的 序列 都 是 [start,stop)。 在 每 一 步 中 ，mid 都 会 被 
设置 为 被 查找 序列 的 中 间 位 置 。strcmp() 的 返回 值 不 是 将 序列 分 为 两 部 分 ， 而 是 分 为 三 部 
分 : [start,mid)、[mid,mid+1) 和 [mid+1,stop)。 如 果 mid->key 大 于 要 查找 的 键 ， 我 们 就 
可 以 知道 键 肯定 在 序列 中 最 左 侧 的 md 之 前 的 部 分 中 。 如 果 mid->key 小 于 要 查找 的 键 ， 那 
么 我 们 知道 键 肯定 在 序列 中 最 右 侧 的 以 mid+1 开头 的 部 分 中 。 如 果 mid->key 等 于 要 查找 的 
键 ， 循 环 终止 。if/else 逻辑 会 先进 行 可 能 性 更 大 的 比较 操作 来 改善 性 能 。 


代码 清单 9-8 使 用 strcmp() 自己 编写 二 分 查找 


kv* find_binary_3(kv* start, kv* end, char const* key) { 
auto stop = end; 
while (start < stop) { 
auto mid = start + (stop-start)/2; 
auto rc = strcmp(mid->key, key); 
if (rc > 0) { 
stop = mid; 
} 
else if (rc < 0) { 
start = mid + 1; 
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} 
else { 

return mid; 
} 


} 


return end; 


} 


这 个 版 本 的 二 分 查找 的 性 能 测试 结果 是 771 毫秒 ， 它 比 基 于 标准 库 的 最 佳 版 本 的 二 分 查找 
快 了 近 26%。 











9.5 优化 键 值 对 散 列 表 中 的 查找 


在 上 一 市 中 ,我 们 看 到 了 对 某 种 表 数 据 结构 改变 算法 后 能 够 提高 查找 效率 。 在 本 市 中 ,我 
将 会 测试 另外 一 种 表 数 据 结构 和 算法 : 散 列表 。 


散 列表 这 个 想法 大 致 是 这 样 的 : 无 论 键 是 什么 类 型 ， 它 都 可 以 被 一 个 散 列 函 数 归 约 为 一 个 
整数 散 列 值 。 接 着 我 们 使 用 这 个 散 列 值 作为 数组 索引 ， 让 它 直 接 指 向 表 中 的 元 素 。 这 样 如 
果 某 条 表 元 素 匹 配 键 ， 那 么 就 查找 到 了 结果 。 如 果 总 是 可 以 通过 散 列 值 直接 找到 表 元 素 ， 
那么 访问 散 列表 的 时 间 是 常量 时 间 。 唯 一 的 开销 是 产生 这 个 散 列 值 的 开销 。 与 线性 查找 一 
样 ， 散 列 并 不 需要 键 之 间 具 有 排序 关系 ， 而 只 需要 一 种 方法 来 比较 键 的 相等 性 。 


寻找 高 效 的 散 列 函 数 是 实现 散 列 表 时 的 一 个 复杂 环节 。 一 个 含有 10 个 字符 的 字符 串 所 包 
含 的 位 数 可 能 会 比 一 个 32 位 整数 所 包含 的 位 数 多 。 因 此 ， 可 能 存在 多 个 字符 串 具 有 相同 
索引 值 的 情况 。 我 们 必须 提供 一 种 机 制 来 应 对 这 种 冲突 。 散 列表 中 的 每 条 元 素 都 可 能 是 散 
列 到 某 个 索引 值 的 元 素 列 表 中 的 第 一 个 元 素 。 或 者 ， 可 以 寻找 相 邻 索 引 值 来 查找 匹配 的 元 
素 ， 直 到 遇 到 一 个 空 索 引 为 止 。 


另外 一 个 问题 是 ， 对 于 表 中 的 所 有 有 效 键 ， 散 列 函 数 可 能 都 不 会 产生 某 个 索引 值 ， 导 致 在 
散 列表 中 会 存在 未 使 用 的 空间 。 这 使 得 散 列表 可 能 会 比 保存 相 同 元 素 的 有 序数 组 大 。 


一 个 糟糕 的 散 列 函 数 或 是 一 组 不 太 走运 的 键 可 能 会 导致 许多 键 散 列 到 相同 的 索引 值 上 。 这 
样 ， 散 列表 的 性 能 会 降 到 O(n)， 使 得 相 比 于 线性 查找 它 没 有 任何 优势 。 


一 个 优秀 的 散 列 函 数 所 计算 出 的 数组 索引 不 会 与 键 的 各 个 位 的 值 紧密 相关 。 随 机 数 生成 器 
和 密码 编码 器 非常 适合 实现 这 个 目标 。 但 是 如 果 散 列国 数 的 计算 开销 非常 大 ， 那 么 除非 表 
非常 大 ， 否 则 相 比 于 二 分 查找 它 没有 任何 优势 。 

多 年 来 ， 找 到 更 好 的 散 列 函数 已 经 成 为 了 计算 机 科学 家 们 的 消 遗 。 在 Stack Exchange 
(http://programmers.stackexchange.com/questions/49550/which-hashing-algorithm-is-best-for- 
uniqueness-and-speed) 上 的 Q&A 中 ， 提 供 了 儿 种 流行 的 散 列 函 数 的 性 能 数据 和 参考 链接 。 
试图 优化 散 列表 代码 的 开发 人 员 应 当知 道 相关 研究 已 经 非常 透彻 了 ， 从 这 里 得 不 到 太 大 的 
性 能 提升 。 

C++ 定义 了 一 个 称 为 std: :hash 的 标准 散 列 函数 对 象 。std: :hash 是 一 个 模板 ， 为 整数 、 浮 
点 数据 、 指 针 和 std: :string 都 提供 了 特 化 实现 。 同 样 适 用 于 指针 的 未 特 化 的 std: :hash 
的 定义 会 将 散 列 类 型 转换 为 size_t， 然 后 随机 设置 它 的 各 个 位 的 值 。 














































































































9.5.1 使 用 std: :unordered_map 进 行 散 列 


在 C++11 中 ,标准 头 文件 <unordered_map> 提供 了 一 个 散 列表 。Visual Studio 2010 预料 到 
了 这 个 标准 并 提供 了 该 头 文件 。 不 过 ，std: :unordered_map 无 法 与 上 一 市 示例 程序 中 自己 
写 的 静态 表 一 起 使 用 。 我 们 必须 将 元 素 插入 到 散 列 表 中 ， 这 会 增加 构建 散 列 表 的 性 能 开 
销 。 使 用 std: :unordered_map 创建 散 列 表 和 插入 元 素 的 示例 代码 如 代码 清单 9-9 所 示 。 
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代码 清单 9-9 初始 化 散 列 表 
std: :unordered map<std::string, unsigned> table; 
for (auto it = names; it != names+namesize; ++it) 
table[it->key] = it->value; 


std::unordered_map 使 用 的 默认 散 列 函数 是 模板 函数 对 和 象 std::hash。 由 于 该 模板 为 
std: :string 提供 了 特 化 实现 ， 因 此 我 们 无 需 显 式 地 提供 散 列 函 数 。 


当 所 有 元 素 都 被 插入 到 表 中 后 ， 就 可 以 如 下 这 样 进行 查找 了 : 
auto it = table.find(key); 
it 是 一 个 迭代 器 ， 它 要 么 指向 一 条 匹配 元 素 ， 要 么 指向 table.end()。 


以 std::string 为 键 的 std: :unordered_map 会 使 用 map 模板 的 所 有 默认 值 来 实现 简单 性 和 
可 观 的 性 能 。 对 std: :unordered_map 进行 性 能 测试 的 结果 是 耗 时 1725 上 毫秒， 其 中 不 包括 
构造 表 的 时 间 。 这 比 以 string 为 键 的 std: :map 快 了 56%， 但 是 并 非 一 个 非常 理想 的 结果 。 
大 家 都 在 炒作 std: :unordered_map 在 散 列 性 能 上 战胜 了 std: :map， 但 实际 的 测试 结果 却 令 
人 吃惊 和 失望 。 


9.5.2 ”对 固定 长 度 字符 数 组 的 键 进行 散 列 
9.3.1 节 中 那个 简单 的 固定 长 度 字 符 数组 模板 类 charbuf 也 可 以 与 散 列 表 一 起 使 用 。 下 面 这 
个 模板 继承 了 charbuf， 提 供 了 对 字符 串 进 行 散 列 的 方法 以 及 在 发 生 冲 突 的 情况 下 可 以 比 
较 键 的 == 运算 符 : 
template <unsigned N=10, typename T=char> struct charbuf { 

charbuf(); 

charbuf(charbuf const& cb); 

charbuf(T const* p); 


charbuf& operator=(charbuf const& rhs); 
charbuf& operator=(T const* rhs); 























operator size t() const; 


bool operator==(charbuf const& that) const; 

bool operator<(charbuf const& that) const; 
private: 

T data_[N]; 


散 列 函 数 是 运算 符 size_t()。 这 有 一 点 不 直观 ， 还 有 一 点 不 纯净 。std: :hash() 的 默认 特 
化 实现 会 将 参数 转换 为 size_t。 对 于 指针 ， 通 常情 况 下 这 只 会 转换 指针 的 各 个 位 ， 但 是 如 
果 是 charbuf&， 那 么 charbuf 的 size_t() 运算 符 会 被 调用 ， 它 会 返回 散 列 值 作为 size_t。 
当然 ， 由 于 size_t() 运算 符 被 劫持 了 ， 它 无 法 再 返回 charbuf 的 长 度 。 现 在 ， 表达 式 
sizeof(charbuf) 返回 的 是 一 个 容易 让 人 误解 的 值 。 使 用 charbuf 的 散 列表 的 声明 语句 如 下 : 


std: :unordered_map<charbuf<>, unsigned> table; 


这 个 散 列表 的 性 能 让 人 失望 。 对 这 个 散 列表 进行 53 次 查找 的 性 能 测试 的 结果 是 2277 毫 
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秒 ， 甚 至 比 以 std: :string 为 键 的 散 列 表 或 map 更 差 。 


9.5.3 ”以 空 字符 结尾 的 字符 串 为 键 进行 散 列 
这 些 事 必 须 很 巧妙 地 完成 ， 否 则 会 有 损 咒 语 。 
一 一 夏 恶 的 西方 女巫 ( 玛 格 丽 特 汉密尔顿) 在 考虑 如 何 移 除 
多 蔓 西 脚 上 的 红宝石 鞋子 时 如 是 说 , 《绿野仙踪 》，1939 
如 果 能 够 用 如 C++ 字符 串 字 面 常量 这 样 的 存储 期 很 长 的 以 空 字符 结尾 的 字符 串 来 初始 化 散 
列表 ， 那 么 就 可 以 用 指向 这 些 字 符 串 的 指针 来 构造 基于 散 列 值 的 键 值 对 表 。 以 char* 为 键 
配合 std: :unordered_map 一 起 使 用 是 一 座 值 得 挖掘 的 性 能 金 矿 。 


std: :unordered_map 的 完整 定义 是 : 



































template< 

typename Key， 

typename Value, 

typename Hash = std: :hash<Key>， 

typename KeyEqual = std: :equaL_to<Key>， 

typename ALLocator = std::allocator<std::pair<const Key，VaLue>> 
> class unordered_map; 


Hash 是 用 于 计算 Key 的 散 列 值 的 函数 的 函数 对 象 或 是 函数 指针 的 类 型 声明 。KeyEqual 是 通 
过 比较 两 个 键 的 实例 是 否 相等 来 解决 散 列 冲突 的 函数 的 函数 对 象 或 是 函数 指针 的 类 型 声明 。 


如 果 Key 是 一 个 指针 ， 那 么 Hash 具有 良好 的 定义 。 程 序 编译 不 会 出 错 ， 而 且 看 起 来 也 能 运 
行 ( 我 初次 进行 性 能 测试 时 得 到 了 一 个 非常 棒 的 测试 结果 ， 并 且 让 我 误 认 为 完成 了 测试 )。 
但 程序 其 实 是 错误 的 。std: :hash 会 生成 指针 的 值 的 散 列 值 ， 而 不 是 指针 所 指向 的 字符 串 的 
散 列 值 。 如 果 测 试 程序 是 从 字符 串 数 组 初始 化 表 ， 然 后 测试 每 个 字符 串 是 否 能 被 找到 ， 那 
么 指向 测试 键 的 指针 与 指向 初始 化 表 的 键 的 指针 是 同一 个 指针 ， 因 此 程序 看 起 来 似乎 可 以 
正常 工作 。 不 过 ， 如 果 在 测试 时 使 用 用 户 另 外 输入 的 相同 的 字符 串 作 为 测试 键 ， 那 么 测试 
结果 会 是 字符 串 并 不 在 表 中 ， 因 为 指向 测试 字符 串 的 指针 与 指向 初始 化 表 的 键 的 指针 不 同 。 
我 们 可 以 通过 提供 一 个 非 默 认 的 散 列 函数 替代 模板 的 第 三 个 参数 的 默认 值 来 解决 这 个 问题 。 
就 像 对 于 map， 这 个 参数 可 以 是 一 个 函数 对 象 、lambda 表达 式 声 明 或 是 非 成 员 函 数 指针 : 
struct hash_c string { 


void hash_combine(size t& seed, T const& v) { 
seed ^= V + OQx9e3779b9 + (seed << 6) + (seed >> 2); 






























































3} 


std::size t operator() (char const* p) const { 
size t hash = 0; 
for (; *p; ++p) 
hash_combine(hash, *p); 
return hash; 
} 
}; 


// 这 种 解决 方法 是 不 完整 的 ,理由 请 往 下 看 


std: :unordered_ map<char const*, unsigned, hash_c_string> table; 
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这 里 我 用 到 了 Boost 中 的 散 列 函数 。 如 果 标 准 库 的 实现 符合 C++14 或 是 以 后 的 标准 ， 
那么 你 也 可 以 在 标准 库 实现 中 找到 这 个 函数 。 可 惜 的 是 ，Visual Studio 2010 没有 提供 
这 个 函数 。 

尽管 这 段 代码 没有 编译 错误 ， 而 且 编 译 后 的 程序 在 小 型 表 上 也 可 以 正常 工作 ,但 通过 仔细 
地 测试 ， 我 发 现 这 段 代码 仍然 是 错误 的 。 问 题 出 在 std: :unordered_map 模板 的 第 四 个 参数 
KeyEqual 上 。 这 个 参数 的 默认 值 是 std: :equal_to， 一 个 使 用 == 比较 两 个 运算 对 象 的 函数 
对 象 。 虽 然 指针 定义 了 == 运算 符 ， 但 它 比 较 的 是 指针 在 计算 机 内 存 空间 中 的 顺序 ， 而 不 
是 指针 所 指向 的 字符 串 。 

当然 ， 解 决 方式 是 提供 另外 一 个 非 默认 的 函数 对 象 奉 代 KeyEqual 模板 参数 。 完 整 的 解决 方 
案 代码 如 代码 清单 9-10 所 示 。 


代码 清单 9-10 ”以 空 字 符 结 尾 的 字符 串 为 键 的 std: :unordered_map 


struct hash_c_string { 
void hash_combine(size t& seed, T const& v) { 
seed ^= V + 0x9e3779b9 + (seed << 6) + (seed >> 2); 












































} 


std::size t operator() (char const* p) const { 
size t hash = 0; 
for (; *p; ++p) 
hash_combine(hash, *p); 
return hash; 
} 
}; 


struct comp_c_string { 
bool operator()(char const* pi1, char const* p2) const { 
return strcmp(p1,p2) == 0; 
} 
}; 


std: :unordered_map< 
char const*, 
unsigned, 
hash_c_string, 
comp_c_string 
> table; 
这 个 版 本 的 键 值 对 表 是 以 char* 为 键 的 std: :unordered_map， 对 它 进行 的 性 能 测试 的 结果 
是 993 毫秒 。 这 上 比 基于 std: :string 的 散 列表 快 了 73%， 但 比 基 于 char* 和 std: :map 的 最 
佳 实现 只 快 了 9%。 而 且 它 比 使 用 std: :Lower_bound 在 存储 键 值 对 元 素 的 简单 静态 数组 上 
进行 二 分 查找 的 算法 要 慢 。 这 可 不 是 多 年 的 炒作 所 让 我 期 待 的 结果 。( 在 10.8 节 中 我 们 将 
看 到 ， 大 型 散 列 表 比 基于 二 分 查找 的 查找 算法 有 更 大 的 优势 。) 


9.5.4 用 自 定义 的 散 列 表 进 行 散 列 
要 想 适用 于 所 有 键 ， 那 么 散 列 函 数 就 必须 足够 通用 。 如 果 能 够 像 示 例 程序 中 那样 提前 知道 
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表 中 的 键 值 ， 那 么 一 个 非常 简单 的 散 列 函数 可 能 就 足够 了 。 


在 创建 表 时 ， 对 于 给 定 的 一 组 键 不 会 产生 冲突 的 散 列 称 为 完美 散 列 。 能 够 创建 出 无 多 余 空 
间 的 表 的 散 列 称 为 最 小 散 列 。 散 列 函 数 的 “圣杯 ”是 能 够 创建 出 无 冲突 、 无 多 余 空 间 的 表 
的 最 小 完美 散 列 。 当 键 的 数量 相当 有 限时 ， 容 易 创建 完美 散 列 ， 黄 至 是 完美 最 小 散 列 。 这 
时 ， 散 列 函数 可 以 尝试 通过 首 字 母 〈 或 是 前 两 个 字母 )、 字 母 和 以 及 键 长 来 计算 散 列 值 。 


在 本 市 的 示例 表 中 ，26 条 有 效 元 素 的 首 字母 各 不 相同 ， 而 且 它 们 是 有 序 的 ， 因 此 基于 首 字 
母 的 散 列 就 是 一 个 完美 的 最 小 散 列 。 而 且 这 与 无 效 键 的 散 列 值 无 关 ， 因 为 它们 会 与 有 效 键 
的 散 列 值 进行 比较 ， 而 结果 肯定 是 不 相等 。 


代码 清单 9-11 展示 了 一 个 在 实现 上 与 std: :unordered_map 类 似 的 简单 的 自 定义 散 列 表 。 
代码 清单 9-11 ”基于 示例 表 的 完美 最 小 散 列表 


unsigned hash(char const* key) { 
if (key[0] < 'a' || key[0] > 'z') 
return 0; 
return (key[0]-'a'); 
























































} 


kv* find_hash(kv* first, kv* last, char const* key) { 
unsigned i = hash(key); 
return strcmp(first[i].key, key) ? last : first + i; 


3. 


hash() 会 将 key 的 首 字母 映射 到 26 条 表 元 素 之 一 ， 因 此 对 26 求 余 。 这 里 采用 了 一 种 保守 
程 方式 ， 以 防止 当 键 是 “@#3%” 这 样 的 字符 串 时 程序 会 访问 未 定义 的 存储 空间 。 
对 find_hash() 进行 的 性 能 测试 的 结果 是 253 毫秒 ， 这 个 结果 非常 出 色 。 


尽管 这 个 简单 的 散 列 函数 能 够 适用 于 示例 表 真 的 是 非常 幸运 ， 但 我 们 并 没有 人 为 地 改动 这 
个 表 来 实现 高 性 能 。 最 小 完美 散 列 函数 通常 都 是 很 简单 的 函数 。 在 互联 网 上 有 些 论 文 讨论 
了 在 小 型 关键 字 集 合 上 自动 生成 完美 最 小 散 列 函数 的 各 种 方法 。GNU 计划 (还 有 其 他 项 

目 ) 构建 了 一 个 称 为 gperf (http://www.gnu.org/software/gperf/) 的 命令 行 工 具 ， 它 所 生成 
的 完美 散 列 函数 通常 也 是 最 小 散 列 函数 。 


9.6 ”斯 特 潘 诺 夫 -的 抽象 惩罚 


我 所 进行 的 性 能 测试 是 查找 26 个 有 效 表 元 素 和 27 个 无 效 表 元 素 。 这 创建 了 一 种 平均 性 
能 。 线 性 查找 在 查找 存在 于 表 中 的 键 时 性 能 相对 来 说 更 好 ， 因 为 线性 查找 一 旦 匹配 到 待 查 
找 的 元 素 后 会 立即 结束 。 二 分 查找 则 无 论 待 查找 的 键 是 否 在 表 中 ， 进 行 比较 的 次 数 几 乎 都 
是 相同 的 。 


表 9-1 汇总 了 各 种 查找 算法 的 性 能 测试 结果 。 
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注 3: 亚历山大 “斯 特 潘 诺 夫 (Alexander Stepanov) ，STL (标准 模板 库 ) 之 父 ， 并 因此 而 荣获 第 一 届 Dr. 
Dobb's 程序 设计 杰出 奖 , 现 在 是 Adobe 公司 首席 科学 家 。 他 曾 是 康 柏 电脑 公司 的 副 总 裁 和 首席 科学 家 ， 
AT&T 实验 室 副 总 裁 和 首席 架构 师 ，SGI 服务 和 超级 计算 机 业务 首席 技术 官 。 
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表 9-1: 查找 算法 的 性 能 测试 结果 总 结 


VS2010 正 式 版 ， 较 上 一 个 版 本 ” 较 上 一 个 种 类 
i7，1 毫 秒 迭 代 ”提高 的 百分比 ”提高 的 百分比 





map<string> 2307 毫秒 

map<char*> 非 成 员 函 数 。 1453 毫秒 59% 59% 
map<char*> 国 数 对 象 820 毫秒 77% 181% 
map<char*> lambda 820 毫秒 0% 181% 
std: :find() 1425 毫秒 

std: :equal_range() 1806 毫秒 

std: :lower_bound 973 训 秒 53% 86% 
find_binary_3way() 771 片 秒 26% 134% 
std: :unordered_map() 509 片 秒 

find_hash() 195 毫秒 161% 161% 


如 我 所 料 ， 二 分 查找 比 线性 查找 更 快 ， 散 列 查找 比 二 分 查找 更 快 。 

C++ 标准 库 提供 了 一 组 直接 可 用 且 经 过 调试 的 算法 和 数据 结构 ， 它 们 能 够 适用 于 许多 情 
况 。C++ 标准 定义 了 最 差 情况 下 的 大 O 时 间 开 销 ， 来 证 明 这 些 算法 和 数据 结构 是 能 够 被 广 
泛 地 使 用 的 。 
但 是 使 用 标准 库 的 这 种 极其 强大 和 通用 的 机 制 是 有 开销 的 。 即 使 标准 库 算 法 具有 优秀 的 性 
能 ， 它 也 往往 无 法 与 最 佳 手工 编码 的 算法 匹敌 。 这 可 能 是 因为 模板 代码 中 的 缺点 或 是 编译 
器 设计 中 的 缺点 ， 抑 或 是 因为 标准 库 代 码 需要 能 够 工作 于 通用 情况 下 (如 只 使 用 < 函数 运 
算 符 ， 且 不 使 用 strcmp())。 这 种 开销 可 能 会 导致 开发 人 员 不 得 不 自己 去 编写 那些 确实 非 
常 重要 的 查找 算法 。 

这 个 存在 于 标准 算法 和 手工 编写 的 优秀 算法 之 间 的 渔 询 被 称 为 “斯 特 潘 诺 夫 的 抽象 惩罚 ”， 
它 是 以 亚历山大 斯 特 潘 诺 夫 的 名 字 命 名 的 。 在 亚历山大 :斯 特 潘 诺 夫 设 计 出 了 初始 版 本 
的 标准 库 算 法 和 容器 类 后 ,一度 没有 编译 器 能 够 编译 它们 。 相 对 于 手动 编码 的 解决 方案 ， 
斯 特 潘 诺 夫 的 抽象 惩罚 是 通用 解决 方案 无 法 避免 的 开销 ， 它 也 是 使 用 C++ 标准 库 算法 这 样 
的 能 够 提高 生产 力 的 工具 的 代价 。 这 并 非 一 件 坏事 ， 但 却 是 当 开发 人 员 需 要 提高 程序 性 能 
时 必须 注意 的 事情 。 


9.7 使 用 C++ 标 准 库 优 化 排序 


在 能 够 使 用 分 而 治之 算法 高 效 地 进行 查找 之 前 ， 我 们 必须 先 对 序列 容器 排序 。C++ 标准 库 提 
供 了 两 种 能 够 高 效 地 对 序列 容器 进行 排序 的 标准 算法 一 一 std: :sort() 和 std::stable_sort()。 
尽管 C++ 标准 并 没有 明确 指定 使 用 了 哪 种 排序 算法 ， 但 它 的 定义 允许 使 用 快速 排序 的 
某 个 变种 实现 std::sort 以 及 可 以 使 用 归并 排序 实现 std::stable_sort()。C++03 要 求 
std: :sort 的 平均 性 能 达到 O(n logxn)。 符 合 C++03 标准 的 实现 方式 通常 都 会 用 快速 排序 
实现 std::sort， 而 且 通 常 都 会 使 用 一 些 择 中 技巧 来 降低 快速 排序 发 生 最 差 情况 的 O(n ) 时 
间 开 销 的 几率 。C++11 要 求 最 差 情 况 性 能 为 O(n logx)。 符 合 C++11 标准 的 实现 通常 都 是 
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Timsort 或 内 省 排序 等 混合 排序 。 


std::stable_sort() 通常 都 是 归并 排序 的 变种 。C++ 标准 中 的 措辞 比较 奇怪 ， 它 指出 如 果 
能 够 分 配 足 够 的 额外 内 存 ， 那 么 std: :stable_sort() 的 时 间 开 销 是 O(n logyn)， 耕 则 它 的 
时 间 开 销 是 O(n (logzn))。 如 果 递 归 深 度 不 是 太 深 ， 典 型 的 实现 方式 是 使 用 归并 排序 ， 而 
如 果 递 归 深 度 太 深 ， 那 么 典型 的 实现 方式 是 堆 排序 。 
稳定 排序 (stable sort) 的 价值 是 程序 能 够 按照 若干 个 条 件 (例如 首先 是 姓 ， 接 着 是 名 ) 对 
某 个 范围 内 的 记录 进行 排序 ， 并 先 将 记录 按照 第 二 个 条 件 进行 排序 ， 然 后 在 这 个 基础 上 按 
照 第 一 个 条 件 排 序 〈 如 首先 是 对 名 字 排 序 ， 接 着 是 在 名 字 的 基础 上 对 姓氏 排序 )。 只 有 稳 
定 排 序 具 有 这 个 特性 。 这 个 额外 的 特性 证 明 有 两 种 排序 是 合理 的 。 


表 9-2 展示 了 我 对 存储 在 std: :vector 中 的 100 000 个 随机 生成 的 键 值 对 记录 进行 排序 的 
性 能 测试 结果 。 我 发 现 了 一 个 有 趣 的 结论 ， 那 就 是 std: :stabtLe_sort() 的 性 能 实际 上 比 
std::sort() 更 好 。 我 还 对 已 经 排序 完成 的 表 进 行 了 一 项 排序 测试 。 我 会 在 第 10 章 中 讨论 
对 不 同 数据 结构 的 排序 。 

表 9-2: 排序 性 能 测试 结果 总 结 

std: :vector，100 000 个 元 素 ，VS2010 正 式 版 , i7 ”时间 



























































std: :sort() vector 18.61 毫秒 
std: :sort() 已 排序 的 vector 3.77 毫秒 
std: :stabtLe_sort() 16.08 毫秒 
std: :stabtLe_sort() 已 排序 5.01 毫秒 





序列 容器 std: :List 只 提供 了 双 癌 迭代 器 。 因 此 ， 在 一 个 list 上 ，std::sort() 的 时 间 开 
销 是 O(n )。 std: :list 提供 了 一 个 具有 O(n logzm) 时 间 开 销 的 成 员 函 数 sort()。 

有 序 关 联 容器 会 维持 它们 内 部 的 数据 的 顺序 ， 因 此 没有 必要 对 它们 排序 。 无 序 关 联 容 器 也 
会 维持 它们 内 部 的 数据 的 顺序 ， 但 是 这 个 顺序 对 用 户 没 有 任何 意义 。 我 们 无 法 对 它们 排序 。 
C++ 标准 库 <algorithm> 头 文 件 包含 各 种 排序 算法 ， 我 们 可 以 使 用 这 些 算法 为 那些 具有 额 
外 特殊 属性 的 输入 数据 定制 更 加 复杂 的 排序 。 


。 std::heap_sort 将 一 个 具有 堆 属 性 的 范围 转换 为 一 个 有 序 范围 。heap_sort 不 是 稳定 
排序 。 

。 std: :partition 会 执行 快速 排序 的 基本 操作 。 

。 std::merge 会 执行 归并 排序 的 基本 操作 。 

。 各 种 序列 容器 的 insert 成 员 函 数 会 执行 插入 排序 的 基本 操作 。 


9.8 ”小结 

。 C++ 的 混合 特性 为 我 们 提供 了 多 种 实现 方式 ,一 方面 我 们 可 以 实现 性 能 管理 的 全 自动 化 ， 
另 一 方面 也 可 以 对 性 能 逐渐 地 进行 精准 控制 。 正 是 这 些 选择 方式 使 得 我 们 可 以 优化 C++ 
程序 以 满足 性 能 需求 。 
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。 在 大 多 数 活 动 中 都 会 有 足够 多 的 组 件 值 得 优化 ， 而 试图 在 脑海 中 记 住 它们 是 不 可 靠 的 。 

好 记性 不 如 烂 笔头 ， 将 它们 记录 在 纸 上 更 好 。 

。 在 一 项 查找 一 个 有 26 个 键 的 表 的 性 能 测试 中 ， 以 字符 串 为 键 的 std: :unordered_map 只 
比 以 字符 串 为 键 的 std: :map 快 了 52%。 大 家 都 在 炒作 std: :unordered_map 在 散 列 性 能 
上 战胜 了 std: :map， 但 实际 的 测试 结果 却 令 人 吃惊 。 

。 斯 特 潘 诺 夫 的 抽象 惩罚 是 使 用 C++ 标准 库 算 法 这 样 的 能 够 提高 生产 力 的 工具 的 代价 。 














第 10 章 


优化 数据 结构 





美好 的 事物 总 能 带 来 无 尽 的 欢 愉 。 
一 一 约翰 济 臣 (1818) 


如 果 你 以 前 从 未 对 C++ 标准 库 的 容器 类 (前 身 是 标准 模板 库 ， 简 称 STL) 感到 惊奇 ， 也 许 
现在 你 会 感到 惊奇 。 在 1994 年 它 被 引入 C++ 标准 草案 中 时 ， 斯 特 潘 诺 夫 的 标准 模板 库 曾 
经 是 第 一 个 可 复 用 的 高 效 容器 和 算法 库 。 在 STL 之 前 ， 每 个 项 目 都 会 定义 自己 的 链表 和 二 
分 查找 树 实现 ， 可 能 也 会 改写 其 他 人 的 代码 。C 语言 就 没有 这 么 幸运 了 。 标 准 库容 器 出 现 
后 ， 许 多 程序 员 可 以 直接 从 标准 库 在 过 去 20 年 中 积累 的 众多 容器 中 选择 一 个 使 用 ， 而 不 
必 自 己 再 编写 算法 和 数据 结构 类 。 


10.1 理解 标准 库容 器 


我 们 有 充足 的 理由 喜欢 上 C++ 标准 库容 器 ， 例 如 统一 的 命名 ， 以 及 用 于 遍历 容器 的 迭代 器 
在 概念 上 的 一 致 性 。 但 是 对 于 性 能 优化 而 言 ， 有 些 特性 格外 重要 ， 包 括 : 


。 对 于 插入 和 删除 操作 的 性 能 开销 的 大 O 标记 的 性 能 保证 
。 向 序列 容器 中 添加 元 素 具 有 分 挫 常 时 性 能 开销 
。 具有 精准 地 掌控 容器 的 动态 内 存 分 配 的 能 


C++ 标准 库 中 的 各 种 容器 尽管 在 实现 上 明显 不 同 ， 但 是 它们 看 起 来 都 非常 相似 ， 可 能 会 让 
人 误 以 为 它们 之 间 可 以 互相 替代 。 但 其 实 这 只 是 错觉 。 标 准 库容 器 已 经 有 很 长 的 历史 了 。 
如 同 C++ 中 的 其 他 部 分 一 样 ， 标 准 库容 器 之 间 已 经 变 得 互相 独立 了 ， 接 口 只 有 部 分 是 重 芋 
的 。 不 同 容器 的 相同 操作 的 大 0 标记 的 性 能 是 不 同 的 。 最 重要 的 是 ， 不 同 容器 之 间 的 一 些 
同名 成 员 函 数 的 语义 也 是 不 同 的 。 开 发 人 员 只 有 详细 地 掌握 各 个 容器 类 才能 理解 如 何 最 优 
地 使 用 它们 。 
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10.1.1 序列 容器 

序列 容器 std::string、std::vector、std::deque、std::list 和 std::forward_list 中 元 
素 的 顺序 与 它们 被 插入 的 顺序 相同 。 因 此 ， 每 个 容器 都 有 一 头 一 尾 。 所 有 的 序列 容器 都 能 
够 插入 元 素 。 除 了 std: :forward_List 外 ， 所 有 的 序列 容器 都 有 一 个 具有 常量 时 间 性 能 开 
销 的 成 员 函 数 能 够 将 元 素 推 入 至 序列 容器 的 末尾 。 不 过 ， 只 有 std: :deque、std: :list 和 
std: :forward_list 能 够 高 效 地 将 元 素 推 入 至 序列 容器 的 头 部 。 


std::string、std::vector 和 std::deque 中 元 素 的 索引 是 从 0 到 size-1， 我 们 能 够 通过 下 
标 快速 地 访问 这 些 元 素 。std: :list 和 std::forward_list 则 不 同 ， 它 们 没有 下 标 运算 符 。 


std::string、std::vector 和 std::deque 都 是 基于 一 个 类 似 数 组 的 内 部 骨架 构建 而 成 的 。 
当 一 个 新 元 素 被 插入 时 ， 之 前 被 插入 的 所 有 元 素 都 会 被 移动 到 数组 中 的 下 一 个 位 置 ， 因 此 
在 非 末尾 处 插入 元 素 的 时 间 开 销 是 0(n)， 其 中 是 容器 中 元 素 的 数量 。 当 一 个 新 元 素 被 
插入 时 ， 这 个 内 部 数组 可 能 会 被 重新 分 配 ， 导 致 所 有 的 迭代 器 和 指针 失效 。 相 比 之 下 ,在 
std::list 和 std::forward_list 中 ， 只 有 指 问 那 些 从 链表 中 被 移 除 的 元 素 的 迭代 器 和 指针 
才 会 失效 。 我 们 其 至 可 以 在 保持 达 代 器 不 失效 的 情况 下 ， 拼 接 或 是 合并 两 个 std: :List 或 
std: :forward_list 的 实例 。 如 果 有 一 个 迭代 器 已 经 指向 插入 位 置 了 ， 那 么 在 std: :Litst 和 
std: :forward_list 的 中 间 插 入 元 素 的 时 间 开 销 是 常量 时 间 。 


10.1.2 关联 容器 


所 有 的 关联 容器 都 会 按照 元 素 的 某 种 属性 上 的 顺序 关系 ， 而 不 是 按照 插入 的 顺序 来 保存 
元 素 。 所 有 关联 容器 都 提供 了 高 效 、 具 有 次 线性 时 间 开 销 的 方法 来 访问 存储 在 它们 中 的 
元 素 。 


map 和 set 代表 了 不 同 的 接口 。map 能 够 保存 一 组 独立 定义 的 键 与 值 ， 因 而 它 提 供 了 一 种 高 
效 的 从 键 到 值 的 映射 。set 能 够 有 序 地 存储 唯一 值 ， 高 效 地 测试 值 是 否 存在 于 set 中 的 方 
法 。multimaps 与 map 的 唯一 不 同 (类 似 地 ，multisets 与 set 也 不 同 ) 是 它 人 允许 插入 多 个 
相等 的 元 素 。 


就 实现 上 而 言 一 共有 四 种 有 序 关 联 容 器 : std::map、std::multimap、std::set 和 
std::multiset。 有 序 关联 容器 要 求 必须 对 键 (std::map) 或 是 元 素 自 身 (std::set) 定义 
能 够 对 它们 进行 排序 的 operator<() 等 。 有 序 关联 容器 的 实现 是 平衡 二 又 树 ， 因 此 我 们 无 
需 对 有 序 关 联 容器 进行 排序 。 遍 历 它 们 时 会 按照 排序 关系 的 顺序 访问 它们 中 的 元 素 。 揪 入 
或 是 移 除 元 素 的 分 摊 开 销 是 O(logyn)， 其 中 是 容器 中 元 素 的 数量 。 
尽管 map 和 set 可 能 会 有 不 同 的 实现 ， 但 是 在 实践 中 ， 所 有 的 四 种 关联 容器 都 是 基于 相同 
的 平衡 二 又 树 数 据 结 构 实现 的 ， 不 过 它们 具有 独立 的 “外 观 ”。 至 少 对 于 我 使 用 过 的 编译 
器 确实 是 这 样 的 。 因 此 我 不 会 分 别 展示 multimap、set 和 multiset 的 性 能 测量 结果 。 
C++11 又 给 我 们 带 来 了 四 种 无 序 关 联 容器 : std: :unordered_map、std: :unordered_muLtimap、 
std: :unordered_set 和 std: :unordered_multiset。 这 些 容器 早 在 2010 年 就 出 现在 Visual C++ 
中 了 。 无 序 关 联 容器 只 要 求 对 键 (std::unordered_map) 或 是 元 素 (std::unordered_set) 
定义 了 相等 关系 即 可 。 无 序 关 联 容器 的 实现 方式 是 散 列表 。 遍 历 无 序 关联 容器 会 按照 未 定 
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义 的 顺序 访问 元 素 。 插 入 或 是 移 除 元 素 的 平均 时 间 开 销 是 
销 是 O(n)。 

如 果 要 对 表 执 行 查找 操作 ， 那 么 关联 容器 非常 适合 
有 顺序 关系 的 元 素 ， 然 后 对 容器 排序 并 进 4 


10.1.3 测试 标准 库容 器 











常量 时 间 ， 但 最 差 情 况 下 的 时 间 开 





。 开 发 人 员 也 可 以 在 序列 容器 中 存储 具 
了 相对 高 效 的 具有 O(logxn) 时 间 开 销 的 查找 。 











我 创建 了 几 种 类 型 的 容器 ， 然 后 分 别 在 其 中 保存 了 100 000 条 元 素 ， 接 着 测量 了 插入 、 市 
除 和 访问 每 个 元 素 等 操作 的 性 能 。 我 还 测量 了 序列 容器 的 排序 操作 的 时 间 。 以 上 这 些 都 是 





在 程序 中 经 常 
元 素数 量 已 经 足够 多 了 ， 这 相 


会 对 数据 结构 进行 








素 足 够 彻底 地 检查 高 速 缓存 了 。 这 样 的 容器 既 不 是 一 个 小 容器 


几乎 不 会 出 现 的 巨大 容器 。 


的 操作 。 


插入 操作 的 分 摊 开 销 接近 容器 的 渐进 行为 一 100 000 条 元 


， 也 不 是 一 个 在 实际 编程 中 





结果 来 看 ， 大 O 标记 性 能 并 无 法 完全 反映 真实 情况 。 我 发 现 即 使 在 两 种 容器 中 某 种 操作 
ee 0(1) 的 渐进 开销 ， 有 些 容器 仍然 可 能 比 其 他 容器 快 上 许多 倍 。 


我 还 发 现 ， 虽 然 查 找 操作 的 时 间 开 销 为 0(1) 的 unordered_map 比 map 更 快 ， 但 差距 其 实 并 


没有 我 预想 的 那么 大 。 而 且 为 了 达到 这 种 性 能 ， 
大 多 数 容器 类 型 都 提供 了 多 种 插入 元 素 的 方法 。 我 发 现 其 中 某 个 方法 比 其 


或 15%， 但 常常 弄 不 清原 因 。 


它 所 消耗 的 内 存量 非常 大 。 











他 方法 快 了 10% 





将 100 000 条 元 素 插入 到 一 个 容器 中 的 开销 分 为 两 部 分 ， 


造 元 素 复 制 到 存储 空间 中 


的 开销 。 对 于 大 小 国 





固定 的 元 素 ， 


分 配 存 储 空 
分 配 存 储 空 





s 间 的 开销 ， 以 及 将 构 
zs 间 的 开销 也 是 固定 














的 ， 但 复制 构造 的 开销 并 不 固定 





定 ， 它 取决 于 程 











序 是 如 何 编写 的 。 如 果 元 素 的 复制 构造 函数 





的 开销 非常 昂贵 ， 那 么 构建 容器 


吊 cn 山 ， 谷 侠 


入 元 素 的 性 能 时 ， 所 有 容器 的 测试 结果 几乎 都 是 相同 的 。 


的 开销 中 的 绝 大 部 分 都 是 复制 开销 。 


在 这 种 情况 下 测试 插 















































大 多 数 容器 类 型 都 提供 了 多 种 遍历 元 素 的 方法 。 我 再 一 次 发 现 其 中 某 个 方法 比 其 他 方法 快 
很 多 ， 而 且 我 也 同样 弄 不 清原 因 。 有 趣 的 是 ， 各 种 容器 类 型 遍历 元 素 的 性 能 开销 的 差距 比 
我 预想 的 要 小 。 

我 测试 了 序列 容器 的 排序 开销 ， 想 看 看 如 果 替 换 了 应 用 程序 中 查找 表 的 容器 类 型 会 有 怎样 





全 已 昌 





的 性 能 影响 。 有 些 容器 会 在 插入 元 素 时 对 它们 进行 排序 ， 其 





其 他 容器 则 根本 无 法 进行 排序 。 





目 E 呆 ZI 


本 章 中 的 测试 结果 非常 有 趣 ， 但 是 可 能 比较 脆弱 。 随 着 容器 的 实现 方式 不 断 地 改进 ， 最 


快 的 方法 可 能 会 发 生变 化 。 例 如 ， 虽 然 stabLe_sort() 总 


[= 
了 到 


总 是 比 sort() 更 快 ， 但 我 猜测 在 


stable_sort() 被 加 入 到 算法 库 中 之 前 ，sort() 才 是 最 快 的 。 


1. 元 素数 据 类 型 
我 使 用 键 值 对 数据 结构 作为 序列 容器 中 的 元 素 。 关 联 容 
的 数据 结构 : 


struct kvstruct { 
char key[9]; 


会 创建 下 面 这 个 类 似 std: :pair 
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unsigned value; // 可 以 是 任意 类 型 的 数据 
kvstruct(unsigned k) : value(k) 


if (strcpy_s(key, stringify(k))) 
DebugBreak(); 
} 


bool operator<(kvstruct const& that) const { 
return strcmp(this->key, that.key) < 0; 


} 


bool operator==(kvstruct const& that) const { 
return strcmp(this->key, that.key) == 0; 


} 
}; 
这 个 类 的 复制 构造 函数 是 由 编译 器 生成 的 ， 但 它 是非 平 几 函 数 ， 需 要 从 一 个 kvstruct 中 将 
内 容 按 位 复制 到 另外 一 个 kvstruct 中 。 与 之 前 一 样 ， 我 的 目标 是 让 复制 操作 和 比较 操作 的 
性 能 开销 稍微 昂贵 一 点 ， 来 模仿 实际 项 目 中 的 数据 结构 。 
键 自身 都 是 由 七 位 数字 组 成 的 C 风 格 的 以 空 字符 结尾 的 字符 串 。 它 们 是 使 用 C++ 的 
<random> 头 文件 生成 的 均匀 随机 分 布 的 键 。 元 素 的 值 则 与 键 相同 ， 被 存储 为 无 符号 整数 类 
型 。 另 外 ， 我 排除 了 其 中 重复 的 键 ， 生 成 了 一 个 保存 了 100 000 个 唯一 值 的 无 序 的 vector。 
2. 设计 性 能 测试 的 注意 点 
即使 存储 了 100 000 个 元 素 ， 有 些 容 器 在 插入 元 素 或 是 遍历 元 素 时 的 开销 也 非常 小 。 为 了 
得 到 可 以 测量 的 总 时 间 ， 我 决定 重复 插入 或 是 遍历 操作 1000 次 。 但 是 这 也 带 来 了 一 个 问 
题 。 每 次 我 向 容器 中 插入 一 个 元 素 时 ， 都 需要 通过 删除 元 素来 “清洗 ”容器 ， 这 会 影响 程 
序 的 整体 运行 时 间 。 人 例如， 下面 这 段 代码 测量 了 将 一 个 vector 赋值 给 另外 一 个 vector 的 
性 能 开销 。 它 无 法 避免 构造 random_vector 的 一 个 新 的 副本 然后 删除 它 的 开销 : 
{ Stopwatch sw("assign vector to vector + delete x 1000"); 
std: :vector<kvstruct> test_container; 
for (unsigned j = 0; j < 1000; ++j) { 


test_container = random vector; 
std: :vector<kvstruct>().swap(test_container); 























起 


为 了 分 别 得 到 赋值 和 删除 操作 的 性 能 开销 ， 我 编写 了 一 个 更 加 复杂 的 版 本 的 代码 ， 来 分 别 
累计 创建 新 副本 的 时 间 和 删除 新 副本 的 时 间 : 


{ Stopwatch sw("assign vector to vector", false); 

Stopwatch: :tick _t ticks; 

Stopwatch: :tick_t assign x_1000 = 0; 

Stopwatch: :tick_t delete x_1000 = 0; 

std: :vector<kvstruct> test_container; 

for (unsigned j = 0; j < 1000; ++j) { 
sw.Start(""); 
test_container = random vector; 
ticks = sw.Show(""); 
assign x_1000 += ticks; 
std: :vector<kvstruct>().swap(test_container); 
delete x_1000 += sw.Stop("") - ticks; 








} 
std::cout <<" assign vector to vector x 1000: " 
<< Stopwatch::GetMs(assign_x_1000) 
<< "ms" << std::endl; 
std::cout << " Vector delete x 1000: " 
<< Stopwatch::GetMs(delete x_1000) 
<< "ms" << std::endl; 


} 
这 段 循 环 中 的 第 一 条 语句 sw.Start(""); 不 输出 任何 信息 就 直接 启动 秒表 。 接 着 下 一 条 语 


名 test_container = random_vector; 会 消耗 一 些 时 间 复 制 vector。 第 三 条 语句 ticks = 
sw.Show(""); 会 将 ticks 设置 为 到 现在 为 止 为 经 过 的 时 间 。 


ticks 的 值 是 多 少 呢 ? Stopwatch 的 实例 sw 中 的 ticks 源 是 1 毫秒 的 时 标 。 赋 值 语句 所 花 
费 的 时 间 远 比 1 毫秒 短 ， 因 此 基本 上 这 个 值 都 是 0。 但 也 并 非 总 是 如 此 ， 因 为 时 钟 与 这 段 
代码 是 独立 的 ， 它 是 一 个 稳定 地 计量 着 时 间 的 硬件 。 因 此 ， 偶 尔 会 发 生 这 种 情况 : 秒表 在 
1 毫秒 中 的 第 987 微 秒 时 开始 计时 ， 然 后 在 赋值 语句 完成 时 ， 产 生 一 次 计数 。 在 这 种 情况 
下 ，ticks 的 值 等 于 1。 如 果 赋 值 语句 耗 时 500 微 秒 ， 那 么 发 生 这 种 情况 的 几率 接近 50%; 
但 是 如 果 赋 值 语句 只 耗 时 10 微 秒 ， 那 么 发 生 这 种 情况 的 几率 只 有 大 约 1%。 也 就 是 说 ， 只 
要 在 循环 中 让 赋值 操作 反复 执行 足够 多 次 ， 那 么 就 可 以 测量 到 一 个 精确 时 间 。 


assign_x_1000 是 一 个 用 于 记录 赋值 操作 消耗 的 时 间 的 变量 ，ticks 的 值 会 在 其 中 被 累计 。 
接着 ,语句 std::vector().swap(test_container); 会 删除 矢量 test_container 中 的 内 容 。 
最 后 ，detete_x_1000 += sw.Stop("")- ticks; 会 获得 一 个 时 标 计数 (0 或 是 1) ， 然 后 减 
去 赋值 操作 结束 时 的 时 标 计数 值 ， 并 在 detete_x_1666 中 累计 这 个 差 值 。 我 测量 到 删除 
vector1000 次 的 性 能 开销 是 111 毫秒 ， 即 每 次 删除 操作 耗 时 0.111 上 毫秒。 


现在 在 测试 代码 中 ， 已 经 有 了 删除 存储 有 100 000 条 元 素 的 容器 的 开销 了 ， 其 他 的 代码 所 
消耗 的 时 间 只 需要 通过 数学 计算 就 可 以 得 到 了 。 下 面 这 段 代码 是 另外 一 个 填充 容器 1000 
次 的 循环 ， 其 中 也 包含 了 删除 容器 的 开销 : 


{ Stopwatch sw("vector iterator insert() + delete x 1000"); 
std: :vector<kvstruct> test_container; 
for (unsigned j = 0; j < 1000; ++j) { 
test_container.insert( 
test_container .begin(), 
random_vector .begin(), 
random_vector .end()); 
std: :vector<kvstruct>().swap(test_container); 















































} 
我 对 这 段 代码 进行 了 一 次 测试 ， 填 充 容器 和 删除 容器 1000 次 共 耗 时 696 毫秒 。 如 果 删 除 
vector1000 次 的 时 间 如 之 前 所 测量 的 是 111 毫秒 ， 那 么 对 insert() 的 一 次 调用 的 时 间 就 是 
(696-111)/1000=0.585 毫秒 。 
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现代 C++ 编程 笔记 
在 C++ 中 ， 有 一 个 鲜 为 人 知 的 用 于 生成 随机 数 的 标准 库 <random>。 在 我 知道 了 这 
个 库 后 ， 它 就 成 为 了 我 最 喜爱 的 用 于 随机 生成 键 的 工具 之 一 。 例 如 ， 代 码 清 单 10-1 展 
示 了 我 为 了 测试 容器 性 能 而 编写 的 生成 随机 字符 串 的 代码 。 





代码 清单 10-1 ”创建 一 个 由 无 重复 的 kvstruct 实例 组 成 的 vector 


# include <random> 


// 创建 一 个 由 count 个 无 重复 的 kvstruct 实 例 组 成 的 vector 
void build_rnd_vector(std::vector<kvstruct>& v, unsigned count){ 
std: :default_random engine e; 
std: :uniform int_distribution<unsigned> d(count, 10*count-1); 
auto randomizer = std::bind(d,e); 
std: :set<unsigned> unique; 
v.clear(); 
while (v.size() < count) { 
unsigned rv = randomizer(); 
if (unique.insert(rv).second == true) { // 插入 元 素 
kvstruct keyvalue(rv); 
v.push_back(keyvalue); 





} 


build_rnd_vector() 中 的 第 一 行 代码 构造 了 一 个 随机 数 生成 器 ， 它 基本 上 是 一 个 随机 
源 。 第 二 行 代 码 创 建 了 一 个 随机 数 分 布 器 ， 这 是 一 个 可 以 将 生成 器 产生 的 随机 数 序列 
转化 为 符合 某 种 概率 分 布 的 数字 序列 的 对 象 。 在 本 例 中 ， 分 布 是 均匀 的 ， 这 意味 在 最 
小 值 count 到 最 大 值 10*count-1 之 间 的 所 有 的 值 出 现 的 可 能 性 都 是 相等 的 。 因 此 ， 当 
count 是 100 000 时 ， 分 布 器 所 提供 的 值 的 范围 就 是 100 000 到 999 999， 即 所 有 的 值 
的 长 度 都 是 6 位 。 第 三 行 代码 会 创建 一 个 可 以 将 生成 器 用 作 分 布 器 参数 的 对 象 ， 这 样 
调用 这 个 对 象 的 operator() 就 会 生成 一 个 随机 数 。 
关于 生成 器 的 资料 非常 全 面 ， 而 且 生 成 器 的 属性 也 是 已 知 的 。 另 外 还 有 一 个 称 为 
std: :random_device 的 生成 器 ， 如 果 有 可 用 的 真 随机 源 ， 那 么 它 就 可 以 根据 这 个 真 随 
机 源 生 成 值 。 
分 布 器 是 这 个 库 的 强大 之 处 。 例如， 下面 是 几 种 有 用 的 分 布 器 。 
std: :uniform int distribution<unsigned> die(1, 6); 
如 同 六 面 钥 子 一 样 的 均匀 分 布 器 ， 它 能 够 以 相等 的 概率 产生 1 至 6 之 间 的 随机 数 。 
我 们 可 以 通过 第 二 个 参数 指定 表 子 为 4 面 、20 面 或 100 面 。 
std::binomial_ distribution<unsigned> coin(1, 0.5); 
如 同 硬币 一 样 的 二 项 分 布 器 ， 它 能 够 以 相等 的 概率 产生 0 或 1。 通 过 调整 第 二 个 参 
数 可 以 以 非 平 均 的 概率 产生 0 或 1。 
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std: :normaL distribution<doubLe> iq(100.0, 15.0); 
如 同 种 人 口 群 智 力 水 平一 样 的 正 态 分 布 ， 它 会 返回 double 类 型 的 值 ， 其 中 三 分 之 二 
位 于 8$.0 至 115.0 之 间 。 
除了 以 上 这 些 统计 分 布 器 ， 我 们 还 有 泊 松 分 布 器 、 指 数 分 布 器 可 用 于 构建 事件 模拟 
(也 被 称 为 测试 驱动 程序 ) ， 以 及 其 他 几 种 基于 种 群 的 增 量 学 习 分 布 器 。 











10.2 std: :vector 与 std: :string 
这 两 种 数据 结构 的 “产品 手册 ”如 下 。 


JP 39 


。 序列 容器 

。 插入 时 间 : 在 末尾 插入 元 素 的 时 间 开 销 为 0(1)， 在 其 他 位 置 插入 元 素 的 时 间 开 销 为 O0D 
。 索引 时 间 : 根据 位 置 进行 索引 ， 时 间 开 销 为 0(1) 

。 排序 时 间 : O(n logyn) 

。 如 果 已 排序 ， 查找 时 间 开 销 为 O(logzn)， 否 则 为 O(n) 

。 当 内 部 数组 被 重新 分 配 时 ， 迭 代 器 和 引用 失效 

。 过 代 器 从 前 向 后 或 是 从 后 癌 前 生成 元 素 

。 合理 控制 分 配 容量 ， 与 大 小 无 关 

历史 上 ，std::string 曾经 允许 各 种 新 奇 的 实现 方式 ， 但 是 在 C++11 中 它 的 定义 变 得 更 加 
严格 。 在 Visual Studio 中 ， 它 的 实现 方式 可 能 是 std: :vector 的 一 个 定义 了 处 理 字符 串 的 
成 员 函 数 的 继承 类 。 对 std: :vector 的 说 明 同 样 适 用 于 Visual Studio 的 std: :string。 


std: :vector 是 一 个 动态 可 变数 组 (请 参见 图 10-1)。 数 组 元 素 都 是 模板 类 型 参数 T 的 实 
例 ， 它 们 会 被 复制 构造 到 vector 中 。 尽 管 元 素 的 复制 构造 函数 可 能 会 为 其 成 员 分 配 内 存 ， 
但 是 std: :vector 对 内 存 管 理 器 的 唯一 调用 只 是 随 着 元 素 的 增加 重新 分 配 它 的 内 部 数组 而 
已 。 这 种 扁平 数据 结构 使 得 std: :vector 异常 高 效 。C++ 之 父 本 机 尼斯 特 劳 斯 特 卢 普 建 
议 ， 除 非 有 理由 必须 使 用 其 他 容器 类 ， 否 则 应 当 优 先 使 用 std: :vector。 在 本 闻 中 我 将 会 
讲解 这 是 为 什么 。 


capacity = 10 
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10-1: std: :vector 可 能 的 实现 方式 
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从 大 0 标记 上 看 ，std: :vecteor 的 许多 操作 都 是 高 效 的 ， 具 有 常量 时 间 开 销 。 这 些 操作 包 
括 将 一 个 新 元 素 推 和 人 到 vector 的 末尾 和 绪 得 指向 它 的 第 i 个 元 素 的 引用 。 得 益 于 vector 
简单 的 内 部 结构 ， 这 些 操作 在 绝对 意义 上 也 是 非常 快 的 。std: :vector 上 的 迄 代 器 是 随机 
访问 选 代 右 ， 这 意味 着 可 以 在 常量 时 间 内 计算 两 个 迭代 器 之 间 的 距离 。 这 个 特性 使 得 分 而 
治之 的 查找 算法 和 排序 算法 对 std: :vector 非常 高 效 。 


10.2.1 重新 分 配 的 性 能 影响 


std: :vector 的 size 表示 当前 在 vector 中 有 多 少 个 元 素 ; std: :vector 的 capacity 则 表示 
存储 元 素 的 内 部 存储 空间 有 多 大 。 当 size == capacity 时 ， 任 何 插入 操作 都 会 触发 一 次 
性 能 开销 昂贵 的 存储 空间 扩展 : 重新 分 配 内 部 存储 空间 ， 将 vector 中 的 元 素 复 制 到 新 的 
存储 空间 中 ， 并 使 所 有 指向 旧 存 储 空间 的 迭代 器 和 引用 失效 。 当 发 生 重 新 分 配 时 ， 新 的 
capacity 会 被 设置 为 新 size 的 若干 倍 。 它 所 带 来 的 影响 是 插入 操作 的 开销 在 整体 上 是 党 
量 时 间 ， 尽 管 有 些 插 入 操作 很 昂贵 ， 但 其 他 却 不 昂贵 。 

高 效 地 使 用 std: :vector 的 一 个 秘诀 是 ， 通 过 调用 void reserve(size_t n) 预 留 出 足够 多 
的 capacity， 这 样 可 以 防止 发 生 不 必要 的 重新 分 配 和 复制 的 开销 。 

高 效 地 使 用 std: :vector 的 另外 一 个 秘诀 是 ， 即 使 其 中 的 元 素 被 移 除了 ， 它 也 不 会 自动 将 
内 存 返 回 给 内 存 管理 器 。 如 果 程 序 将 100 万 个 元 素 推 入 到 vector 中 ， 接 着 移 除了 所 有 元 
素 ， 那 么 vector 仍然 占用 着 用 于 保存 那 100 万 个 元 素 的 存储 空间 。 当 开发 人 员 在 存储 空间 
极度 有 限 的 环境 中 使 用 std: :vector 时 ， 必 须 时 刻 注意 这 一 点 。 

std::vector 中 有 几 个 成 员 函 数 会 影响 它 的 容量 ， 但 标准 是 笼统 的 ， 没 有 做 出 任何 保证 。 
void ctear() 会 设置 容器 的 大 小 为 0， 但 并 不 一 定 会 重新 分 配 内 部 存储 空间 来 减 小 vector 
的 容量 。 在 C++11 和 Visual Studio 2010 中 ，void shrink_to_fit() 可 以 提示 vector 将 容 
量 缩减 至 当前 的 大 小 ， 但 并 不 强制 进行 重新 分 配 。 


要 想 确保 在 所 有 版 本 的 C++ 中 都 能 释放 vector 的 内 存 ， 可 以 使 用 以 下 技巧 : 


std: :vector<Foo> x; 
























































I 



































vector<Foo>().swap(x); 


这 段 语 名 会 构造 一 个 临时 的 空 的 矢量 ， 将 它 的 内 容 与 矢量 x 交换 ， 接 着 删除 这 个 临时 矢 
量 ， 这 样 内 存 管 理 器 会 回收 所 有 之 前 属于 x 的 内 存 。 























10.2.2 std::vector 中 的 揪 入 与 删除 


有 多 种 方法 可 以 向 vector 中 插入 数据 。 我 测试 了 用 这 些 方法 构造 一 个 含有 100 000 个 
kvstruct 实例 的 vector 的 性 能 开销 ， 发 现 其 中 既 有 很 快 的 方法 ， 也 有 很 慢 的 方法 。 


填充 vector 最 快 的 方式 是 给 它 赋 值 : 


std: :vector<kvstruct> test_container, random vector; 

















test_container = random vector; 


直 操作 非常 高 效 ， 因 为 它 知道 要 复制 的 vector 的 长 度 ， 而 且 只 需要 调用 内 存 管理 器 一 次 





研 


宏 
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来 创建 被 赋值 的 vector 的 内 部 存储 空间 。 使 用 上 面 的 语句 复制 一 个 含有 100 000 条 元 素 的 
vector 耗 时 0.445 毫秒 。 


如 果 数 据 是 在 另外 一 个 容器 中 ， 使 用 std: :vector: :insert() 可 以 将 它 复制 到 vector 中 : 


std: :vector<kvstruct> test_contatner，random_vector; 

















test_container.insert( 
test_container .end(), 
random_vector .begin(), 
random_vector .end()); 


使 用 上 面 的 语句 复制 一 个 含有 100 000 条 元 素 的 vector 耗 时 0.696 毫秒 。 


成 员 函 数 std: :vector::push_back() 能 够 高 效 地 (在 常量 时 间 内 ) 将 一 个 新 元 素 插 入 到 
vector 的 尾部 。 由 于 这 些 元 素 是 在 另外 一 个 vector 中 ， 我 们 有 3 种 方法 可 以 得 到 它们 。 


。 使 用 vector 的 迭代 器 : 


std: :vector<kvstruct> test_container, random vector; 

















for (auto it=random vector.begin(); it!=random vector.end(); ++it) 
test_container .push_back(*it); 


。 使 用 std: :vector::at() 成 员 函 数 : 


std: :vector<kvstruct> test_container, random vector; 


for (unsigned i = 0; i < nelts; ++i) 
test_container .push_back(random_vector .at(i)); 


。 直接 使 用 vector 的 下 标 : 


std: :vector<kvstruct> test_container, random vector; 


for (unsigned i = 0; i < nelts; ++i) 

test_container .push_back(random vector[i]); 
我 的 测试 结果 是 : 这 3 种 方法 的 时 间 开销 分 别 是 2.26、2.05 和 1.99 毫秒 ， 不 分 伯仲 。 不 
过 ， 这 个 时 间 是 简单 的 赋值 语句 所 花费 的 时 间 的 6 倍 。 
这 段 代 码 更 慢 的 原因 是 它 每 次 只 向 vector 中 插入 一 个 元 素 。vector 并 不 知道 有 多 少 个 元 
素 会 被 插入 ， 因 此 它 会 不 断 地 增 大 它 内 部 的 存储 空间 。 在 循环 进行 插入 时 ，vector 内 部 的 
空间 会 发 生 多 次 重新 分 配 ， 并 需要 将 旧 空 间 中 的 元 素 复制 到 新 空间 中 。std: :vector 确保 
了 在 集合 中 push_back() 的 性 能 开销 是 常量 时 间 ， 但 这 不 意味 着 它 就 没有 开销 。 
开发 人 员 可 以 通过 预先 分 配 一 块 能 存储 整个 副本 的 足够 大 的 存储 空间 ， 来 提高 这 个 循环 的 
效率 。 下 面 这 段 是 修改 后 的 使 用 了 友 代 器 的 版 本 ; 


std: :vector<kvstruct> test_contatner，random_vector; 












































test_container.reserve(nelts); 
for (auto it=random vector.begin(); it != random vector.end(); ++it) 
test_container .push_back(*it); 


这 个 循环 的 性 能 令 人 满意 ， 达 到 了 0.674 毫秒 。 
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还 有 其 他 方法 能 够 将 元 素 插 入 到 vector 中 ， 例 如 ， 我 们 还 可 以 使 用 另外 一 个 版 本 的 
insert() 成 员 函 数 : 


std: :vector<kvstruct> test_container, random vector; 


for (auto it=random vector.begin(); it != random vector.end(); ++it) 
test_container.insert(test_container.end(), *it); 


看 起 来 它 的 开销 似乎 应 该 与 push_back() 一 样 ， 但 其 实 不 然 (在 Visual Studio 2010 上 )。 
所 有 的 这 三 种 方法 〈 迭 代 器 、at() 和 下 标 ) 的 耗 时 都 是 约 2.7 毫秒 。 预 留 足够 的 空间 则 可 
以 将 时 间 缩 短 到 1.45 毫秒 ,但 是 这 仍然 无 法 与 之 前 的 其 他 方法 的 性 能 相 匹 敌 。 

最 后 ， 我 们 来 看 看 std: :vector 的 一 个 超级 弱点 : 在 前 端 插入 元 素 。std: :vector 并 没有 提 
供 push_front() 成 员 函 数 ， 因 为 这 个 操作 的 时 间 开 销 会 是 O(n)。 在 前 端 插入 元 素 是 低 效 
的 ， 因 为 需要 复制 vector 中 的 所 有 元 素来 为 新 元 素 腾 出 空间 ， 而 这 确实 很 低 效 。 下 面 这 个 
循环 : 


std: :vector<kvstruct> test_container, random vector; 
































for (auto it=random vector.begin(); it != random vector.end(); ++it) 
test_container.insert(test_container.begin(), *it); 


耗 时 8065 毫秒 。 请 注意 是 8065 毫秒 ， 不 是 8.065 毫秒。 这 个 循环 所 花费 的 时 间 几 平 是 在 
末尾 插入 元 素 的 时 间 的 3000 倍 。 


因此 ， 想 要 高 效 地 填充 一 个 vector， 请 按照 赋值 、 使 用 返 代 器 和 insert() 从 另外 一 个 容器 
插入 元 素 、push_back() 和 使 用 insert() 在 末尾 插入 元 素 的 优先 顺序 选择 最 高 效 的 方法 。 





10.2.3 遍历 std: :vector 

遍历 vector 和 访问 其 元 素 的 开销 并 不 大 ， 但 就 像 插 入 操作 一 样 ， 不 同方 法 的 性 能 开销 差异 
显著 。 
有 三 种 方法 可 以 遍历 一 个 vector(): 使 用 友 代 器 、 使 用 at() 成 员 函 数 和 使 用 下 标 。 如 果 循 
环 内 部 的 处 理 的 性 能 开销 很 昂贵 ， 那 么 各 种 遍历 方法 之 间 的 性 能 差异 就 没有 那么 明显 了 。 
不 过 ， 通 常 开发 人 员 都 只 会 对 每 个 元 素 进 行 简单 快速 的 处 理 。 在 本 例 中 ， 循 环 将 会 累计 值 ， 
这 个 操作 所 花费 的 时 间 微 不 足 道 (同时 这 也 可 以 防止 编译 器 将 整个 循环 优化 为 无 操作 ) : 


std: :vector<kvstruct> test_container; 






































unsigned sum = 0; 
for (auto it=test container.begin(); it!=test_container.end(); ++it) 
sum += it->value; 


std: :vector<kvstruct> test_container; 


unsigned sum = 0; 

for (unsigned i = 0; i < nelts; ++i) 
sum += test_container.at(i).value; 

std: :vector<kvstruct> test_container; 
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0.236 上 毫秒， 使 月 


unsigned sum 


= 03 


for (unsigned i = 0; i < nelts; ++i) 
sum += test_container[i].value; 


开发 人 员 可 能 会 误 以 为 这 些 循环 的 性 能 开销 几乎 相同 ， 但 事实 并 非 如 此 。 
日 at() 函数 的 版 本 性 能 稍 好 ， 耗 时 0.230 毫秒 ;但 与 插入 操作 一 样 ， 下 标 














版 本 更 加 高 效 ， 只 需 0.129 上 毫秒。 在 Visual Studio 2010 中 ， 下 标 版 本 快 了 83% 。 








10.2.4 对 std: :vector 排 序 





std 








JP D9 


::sort() 和 std: :stabLe_sort()。 如 果 像 std: :vector 一 样 ， 容 器 





友 代 器 版 本 耗 时 


在 使 用 二 分 查找 法 查找 元 素 前 ， 可 以 先 对 vector 进行 一 次 高 效 的 排序 。C++ 标准 库 有 两 种 


排序 算法 的 迭代 


器 是 随机 访问 迭代 器 ， 那 么 两 种 算法 的 时 间 开销 都 是 O(n log2n)， 而 且 它 们 在 有 序数 据 上 
的 排序 速度 更 快 。 我 们 可 以 编写 下 面 这 段 简短 的 程序 来 完成 排序 : 


std: :vector<kvstruct> sorted_container, random vector; 

















sorted_container = random vector; 
std: :sort(sorted_ container.begin(), sorted_container .end()); 


各 种 排序 方法 的 测试 结果 请 参见 表 10-1。 
表 10-1: 对 一 个 含有 100 000 条 元 素 的 vector 进 行 排序 的 性 能 开销 








std: :Vector VS2010 正 式 版 ，i7，100 000 个 元 素 
std: :sort() vector 18.61 毫秒 

std::sort() 已 排序 的 vector 3.77 上 毫秒 

std: :stable_sort() vector 16.08 上 毫秒 

std::stable_sort() 已 排序 5.01 毫秒 





10.2.5 ”查找 std: :vector 





7 














下 面 这 上段 程序 会 在 sorted_container 中 查找 保存 在 random_vector 中 的 所 有 键 : 


std: :vector<kvstruct> sorted_container, random vector; 


for (auto it=random vector.begin(); it!=random vector.end(); ++it) { 
kp = std::Lower_bound( 


sorted_container .begin(), 
sorted_container .end()， 
*it); 


if (kp != sorted container.end() && *it < *kp) 
kp = sorted_container .end(); 


} 


这 上段 程序 在 有 序 vector 中 查找 100 000 个 键 耗 时 28.92 毫秒 。 


10.3 


std: :deque 


deque 的 “产品 手册 ”如 下 。 
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DR 


。 序列 容器 

。 插入 时 间 : 在 末尾 插入 元 素 的 时 间 开 销 为 0(1)， 在 其 他 位 置 插入 元 素 的 时 间 开 销 
为 O(n) 

。 索引 时 间 : 根据 位 置 进 行 索引 ， 时 间 开 销 为 0(1) 

。 排序 时 间 : O(n log2m) 

。 如 果 已 排序 ， 查找 时 间 开 销 为 O(logyn)， 否 则 为 O(n) 

。 当 内 部 数组 被 重新 分 配 时 ， 迭 代 器 和 引用 会 失效 

。 友 代 器 可 以 从 后 向 前 或 是 从 前 向 后 遍历 元 素 


std: :deque 是 一 种 专门 用 于 创建 “先进 先 出 ”(FIFO) 队列 的 容器 。 在 队列 两 端 插入 和 册 
除 元 素 的 开销 都 是 常量 时 间 。 下 标 操 作 也 是 常量 时 间 。 它 的 迭代 器 与 std: :vector 一 样 ， 
都 是 随机 访问 迭代 器 ， 因 此 对 std: :deque 进行 排序 的 时 间 开 销 是 O(n logwn)。 


由 于 std: :deque 与 std: :vector 具有 相同 的 性 能 保证 ， 而 且 在 两 端 插入 元 素 的 时 间 开 销 都 
是 常量 时 间 ， 因 此 我 们 不 禁 会 问 std: :vector 存在 的 意义 是 什么 呢 ? 不 过 ， 请 注意 deque 
的 这 些 操作 的 常量 比例 比 vector 大 。 对 这 些 共通 操作 的 性 能 测量 结果 表明 ，deque 的 操作 
比 vector 相同 的 操作 慢 3 到 10 倍 。 对 deque 而 言 ， 达 代 、 排 序 和 查找 相对 来 说 是 三 个 亮 
点 ， 只 是 比 vector 慢 了 大 约 30%。 

std: :deque 的 典型 实现 方式 是 一 个 数组 的 数组 (图 10-2)。 获 取 deque 中 元 素 所 需 的 两 
个 间接 引用 会 降低 缓存 局 部 性 ， 而 且 更 加 频繁 地 调用 内 存 管理 器 所 产生 的 性 能 开销 也 比 
vector 的 要 大 。 








ls 









































capacity= 32 

















10-2: 在 几 次 插入 和 删除 操作 后 ，std: :deque 可 能 的 实现 情况 
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将 一 个 元 素 加 入 到 deque 的 任何 一 端 都 会 导致 最 多 调用 内 存 分 配器 两 次 : 一 次 是 为 新 元 素 
分 配 另 一 块 存储 元 素 的 区 域 ， 另 一 次 则 可 能 没 那 么 频繁 ， 那 就 是 扩展 deque 的 内 部 数组 。 
deque 的 这 种 内 存 分 配 行为 更 加 复杂 ， 因 而 比 vector 的 内 存 分 配 行为 更 加 难以 讨论 明白 。 
std::deque 没有 提供 任何 类 似 于 std: :vector 的 用 于 为 其 内 部 数据 结构 预先 分 配 存储 空间 
的 reserve() 成 员 国 数 。 另 外 还 有 一 个 称 为 std: :queue 的 容器 适配器 模板 ， 而 deque 就 是 
其 默认 实现 。 不 过 ， 无 法 保证 这 种 用 法 具有 优秀 的 内 存 分 配 性 能 。 


10.3.1 std: :deque 中 的 插入 和 删除 
std: :deque 不 仅 与 std: :vector 具有 相同 的 插入 接口 ， 它 还 有 一 个 成 员 函 数 push_front() 。 
下 面 这 段 程序 会 将 一 个 deque 赋值 给 另外 一 个 deque。 这 个 操作 花费 了 5.70 毫秒 。 


std: :deque<kvstruct> test_container; 
std: :vector<kvstruct> random_vector; 
































7 














test_container = random vector; 


下 面 这 段 代 码 展示 了 如 何 使 用 一 对 送 代 器 将 元 素 插 入 到 deque 中 。 这 个 操作 花费 了 
5.28 毫秒 。 


std: :deque<kvstruct> test_container; 
std: :vector<kvstruct> random_vector; 


test_container.insert( 
test_container .end(), 
random_vector .begin(), 
random_vector .end()); 


以 下 是 三 种 使 用 push_back() 将 元 素 从 vector 复制 到 deque 中 的 方法 : 


std: :deque<kvstruct> test_container; 
std: :vector<kvstruct> random vector; 


for (auto it=random vector.begin(); it!=random vector.end(); ++it) 
test_container .push_back(*it); 


for (unsigned i = 0; i < nelts; ++i) 
test_container .push_back(random_ vector .at(i)); 


for (unsigned i = 0; i < nelts; ++i) 
test_container .push_back(random vector[i]); 

开发 人 员 很 容易 猜 到 这 三 个 循环 的 性 能 开销 大 臻 是 一 样 的 。 由 于 at() 会 进行 额外 的 检查 ， 
因此 它 可 能 会 稍微 慢 一 点 点 。 确 实 ， 返 代 器 版 本 耗 时 4.33 毫秒 ， 比 下 标 版 本 的 5.01 毫秒 
快 了 15%，at() 位 居 其 中 ， 耗 时 4.76 毫秒 。 三 者 之 间 的 差距 并 不 大 ， 在 这 里 花费 精力 进 
行 优化 可 能 不 会 带 来 太 大 的 性 能 提升 效果 。 
在 这 三 种 方式 下 使 用 push_front() 将 元 素 插 入 到 deque 前 端的 性 能 测试 结果 是 相似 的 。 迭 
代 器 版 本 耗 时 5.19 毫秒 ， 而 下 标 版 本 耗 时 5.55 毫秒 一 一 只 有 7% 的 差距 ， 近 乎 不 可 重复 。 
不 过 ，push_front() 的 测试 结果 比 push_back() 慢 了 20%。 
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使 用 insert() 在 末尾 和 前 端 插 入 元 素 的 性 能 开销 分 别 大 约 是 push_back() 和 push_front() 
的 性 能 开销 的 两 倍 。 

现在 让 我 们 来 对 比 一 下 std: :vector 和 std: :deque 的 性 能 。 对 于 相同 数量 的 元 素 ，vector 
的 赋值 操作 的 性 能 是 deque 的 13 倍 ， 删 除 操作 的 性 能 是 deque 的 22 倍 ， 基 于 迭代 器 的 插 
入 操作 的 性 能 是 deque 的 9 倍 ，push_back() 操作 的 性 能 是 deque 的 两 倍 ， 使 用 insert() 
在 末尾 插入 元 素 的 性 能 则 是 deque 的 3 倍 。 








优化 战争 故事 
开始 测试 deque 的 性 能 时 ， 我 发 现 了 一 个 奇怪 的 现象 ; std: :deque 的 操作 比 std: :vector 
的 同样 的 操作 慢 了 一 千 倍 。 最 开始 ， 我 告诉 自己 :“ 事 实 就 是 这 样 的 。deque 是 一 种 糟糕 
的 数据 结构 。” 直 到 对 本 书 中 的 表 进 行 了 最 后 一 次 测试 时 ， 我 才 发 现 自己 有 多 么 愚蠢。 


在 开发 过 程 中 我 通常 都 是 打开 调试 器 测试 程序 ， 因 为 在 IDE 上 有 一 个 很 明显 的 调试 按 
钮 。 我 注意 到 ， 在 调试 模式 下 链接 到 C++ 运行 时 库 时 会 带 有 额外 的 调试 检查 。 但 是 我 
从 未 发 现 它 们 竟然 会 带 来 这 么 大 的 性 能 差异 。 我 之 所 以 在 非 调 试 模式 下 对 本 书 中 的 表 
再 进行 一 次 测试 ， 是 因为 这 样 能 够 测量 到 更 稳定 的 时 间 。 就 这 样 ， 我 发 现 由 于 诊断 代 
码 被 加 入 到 了 内 存 分 配 例 程 中 ， 调试 模式 下 的 std: :deque 的 性 能 开销 变 得 格外 昂贵 。 
就 我 的 经 验 ， 在 调试 版 本 下 测量 到 的 相对 性 能 与 在 正式 版 本 中 测量 到 的 相对 性 能 非常 
接近 ， 但 std: :deque 却 是 一 个 例外 。 我 们 可 以 控制 在 调试 时 使 用 调试 堆 还 是 普通 堆 。 
请 参见 3.3 节 中 的 “性 能 优化 专业 提示 ”。 














10.3.2 ”遍历 std: :deque 

使 用 下 标志 历 deque 中 的 元 素 耗 时 0.828 上 毫秒， 而 使 用 迭代 器 遍历 则 耗 时 0.450 毫秒 。 有 意 
思 的 是 ， 对 于 deque， 基 于 进 代 器 的 遍历 更 快 ， 而 对 于 vector， 基 于 下 标的 遍历 则 更 快 。 但 
是 遍历 deque 的 最 快 方法 的 性 能 开销 是 遍历 vector 的 最 快 方法 的 两 倍 ， 与 之 前 的 趋势 相同 。 





10.3.3 ”对 std: :deque 的 排序 

使 用 std: :sort() 对 deque 中 的 100 000 条 元 素 排序 耗 时 24.82 毫秒 ， 比 vector 慢 了 33%。 
使 用 std::stable_sort() 对 deque 排序 更 快 ， 耗 时 17.76 毫秒 ， 只 比 vector 慢 了 不 到 
10%。 在 这 两 种 情况 下 对 有 序 deque 排序 都 比 对 无 序 deque 排序 更 快 。 








10.3.4 查找 std: :deque 


在 有 序 deque 中 查找 所 有 的 100 000 个 键 需要 花费 35 毫秒 ， 只 比 在 vector 中 查找 慢 了 大 
约 20%。 


10.4 std::list 
std: :List 的 “产品 手册 ”如 下 。 
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。 序列 容器 

。 插入 时 间 : 任意 位 置 的 插入 时 间 开 销 都 是 0(1) 

。 排序 时 间 : O(n logyn) 

。 查找 时 间 : O(n) 

。 除非 元 素 被 移 了 除了， 否则 迭代 器 和 引用 永远 不 会 失效 

。 达 代 器 能 够 从 后 向 前 或 是 从 前 向 后 访问 List 中 的 元 素 

std::list 与 std::vector 和 std: :deque 有 许多 相同 的 特性 。 与 vector 和 deque 一 样 ， 插 
入 一 个 元 素 到 list 末尾 的 时 间 开 销 是 常量 时 间 ， 与 deque 一 样 (但 与 vector 不 同 ) ， 播 
入 一 个 元 素 到 tist 前 端的 时 间 开 销 是 常量 时 间 。 而 且 ， 与 vector 和 deque 不 同 的 是 ， 
通过 一 个 指向 插入 位 置 的 返 代 绒 插 入 一 个 元 素 到 tist 中 间 的 时 间 开 销 是 常量 时 间 。 与 
vector 和 deque 一 样 ， 我 们 也 可 以 对 List 高 效 地 进行 排序 。 但 是 与 vector 和 deque 不 同 
的 是 ， 无 法 高 效 地 查找 List。 最 快 的 查找 List 的 方法 是 使 用 std: :find()， 它 的 时 间 开 
销 是 O(n)。 

std: :list 太 低 效 了 ， 不 使 用 它 已 经 成 为 了 常识 。 但 是 通过 测量 其 性 能 我 发 现 并 非 如 此 。 
尽管 复制 或 是 创建 std::List 的 开销 可 能 是 std: :vector 的 10 倍 ， 但 是 与 std: :deque 相 
比 ， 它 还 是 具有 竞争 力 的 。 将 元 素 插 入 到 list 末尾 的 开销 不 足 vector 的 两 倍 。 饥 历 和 
排序 List 的 开销 只 比 vector 多 了 30%。 对 于 我 测试 过 的 大 部 分 操作 ，std::list 都 比 
std: :deque 的 效率 更 高 。 

关于 std: :List 的 另 一 个 常识 是 ， 对 于 它 提 供 的 特性 而 言 ， 前 向 遍历 、 反 向 遍历 和 具 
有 常量 时 间 开 销 的 size() 方法 都 大 过 于 昂贵 。 这 种 认识 导致 最 终 在 C++ll1 中 引入 了 
std: :forward_List。 不 过 ， 经 过 测试 我 发 现 ， 至 少 在 PC 硬件 上 ，std: :List 的 各 种 操作 的 
性 能 与 std: :forward_List 几乎 相同 。 

由 于 std: :List 没有 可 能 会 导致 内 存 重新 分 配 的 内 部 骨架 数组 ， 揪 入 操作 永远 不 会 使 夺 代 
器 和 引用 失效 。 仅 当 它 们 所 指向 的 链表 元 素 被 删除 了 时 ， 它 们 才 会 失效 。 

std: :list 的 一 个 优点 是 在 拼接 〈OG) 时 间 开 销 ) 和 合并 时 无 需 复制 链表 元 素 。 即 使 是 像 
splice 和 sort 这 种 操作 也 不 会 使 std: :List 的 友 代 器 失效 。 在 List 中 间 插 入 元 素 的 时 间 
开销 是 常数 时 间 ， 因 为 程序 已 经 知道 要 在 哪里 插入 元 素 。 因 此 ， 如 果 一 个 应 用 程序 需要 创 
建 元 素 的 集合 并 对 它们 进行 这 些 操作 ， 那 么 使 用 std: :list 会 比 std: :vector 更 高 效 。 

std: :list 能 够 以 一 种 简单 且 可 预测 的 方式 与 内 存 管 理 器 交互 。 当 有 和 需要 时 ，list 中 的 
每 个 元 素 会 被 分 别 分 配 存储 空间 。 在 list 中 不 存在 未 使 用 的 额外 的 存储 空间 (请 参见 
图 10-3)。 

list 中 的 每 个 元 素 所 分 配 到 的 存储 空间 大 小 是 相同 的 。 这 有 助 于 提高 复杂 的 内 存 管理 器 的 
工作 效率 ， 也 降低 了 出 现 内 存 雁 片 的 风险 。 我 们 还 能 够 为 std: :tist 自 定义 简单 的 内 存 分 
配器 ， 利 用 这 个 特性 使 其 更 高 效 地 工作 (请 参见 10.4.3 节 ) 。 
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size=3 
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10-3: 在 进行 了 若干 次 插入 和 删除 操作 后 ，std: :tist 的 可 能 的 实现 情 ) 


10.4.1 std::list 中 的 插入 和 删除 


除了 开头 的 数据 结构 声明 外 ， 通 过 insert()、push_back() 和 push_front() 将 一 个 List 复 
制 到 另 一 个 List 中 的 算法 与 vector 和 deque 的 代码 清单 中 的 算法 ' 是 相同 的 。std: :List 
的 结构 非常 简单 ， 编 译 器 在 编译 过 程 中 优化 代码 的 余地 很 小 。 因 此 ， 如 表 10-2 所 示 ， 对 于 
List， 这 些 操作 的 时 间 几 乎 是 相同 的 。 






































注 1: 请 参见 10.2.2 和 10.3.1 中 的 示例 代码 。 一 一 译 者 注 
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图 10-2: std: :List 的 性 能 测试 结果 总 结 





std: :List，100 000 条 元 素 ，VS2010 正 式 版 , 7 时 间 tist 与 vector 相 比 
赋值 5.10 毫秒 1046% 
删除 2.49 毫秒 2141% 
insert(end()) 3.69 毫秒 533% 
迭代 器 版 push_back() 4.26 毫秒 88% 
at() 版 push_back() 4.50 毫秒 120% 
下 标 版 push_back() 4.63 毫秒 132% 
迭代 器 版 push_front() 4.77 毫秒 
at() 版 push_front() 4.82 毫秒 
下 标 版 push_front() 4.99 毫秒 
友 代 器 版 的 尾部 插入 4.75 毫秒 75% 
at() 版 的 尾部 插入 4.84 毫秒 77% 
下 标 版 的 尾部 插入 4.88 毫秒 75% 
迭代 器 版 的 前 端 插入 4.84 毫秒 
at() 版 的 前 端 插入 5.02 毫秒 
下 标 版 的 前 端 插入 5.04 毫秒 








在 list 末尾 插入 元 素 是 构造 ist 的 最 快 方式 ， 出 于 某 些 原因 ， 甚 至 比 = 运算 符 函 数 更 快 。 














10.4.2 ”遍历 std: :List 中 
list 没有 下 标 运算 符 。 遍 历 它 的 唯一 方式 是 使 用 迭代 器 。 
遍历 含有 100 000 条 元 素 的 List 耗 时 0.326 毫秒 。 这 只 比 遍 历 vector 慢 了 38%。 


10.4.3 ”对 std: :List 排 序 


std::List 上 的 迭代 器 是 双向 迭代 器 ， 不 如 std: :vector 的 随机 访问 迭代 器 功能 强大 。 这 些 
迭代 器 的 一 个 很 特别 的 特性 是 ， 找 到 两 个 双向 迭代 器 之 间 的 距离 或 是 元 素 个 数 的 性 能 开销 
是 O(n)。 因 此 ， 使 用 std: :sort() 对 std::list 排序 的 时 间 开 销 是 O(”)。 编 译 器 的 编译 结 
果 仍 然 是 对 List 调用 一 次 std: :sort(), 但 性 能 可 能 远 比 开发 人 员 所 期 待 的 差 。 

幸运 的 是 ，std: :list 有 一 种 内 置 的 更 高 效 的 排序 方法 ， 其 时 间 开 销 是 O(n logsn)。 使 用 


std::list 内 置 的 sort() 函数 对 List 排序 耗 时 23.2 毫秒 ， 只 比 排序 相同 的 vector 慢 了 
25% 。 














10.4.4 查找 std: :List 


由 于 std::list 只 提供 了 双向 选 代 器 ， 对 于 List， 所 有 的 二 分 查找 算法 的 时 间 开 销 都 是 
O(n)。 另 外 ， 使 用 std: :find() 查找 List 的 时 间 开销 也 是 O(n)， 其 中 是 List 中 元 素 的 
数量 。 因 此 ，std: :List 不 适合 替代 关联 容器 。 
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10.5 std::forward List 
std::forward_list 的 “产品 手册 ”如 下 。 


F399 


。 序列 容器 

。 插入 时 间 : 任意 位 置 的 插入 开销 都 是 0(1) 

。 排序 时 间 : O(n logzn) 

。 查找 时 间 : O(n) 

。 除非 元 素 被 移 除 了 ， 否 则 迭代 器 和 3 引用 永远 不 会 失效 
。 迭代 器 从 前 向 后 访问 元 素 

std: :forward_list 是 一 种 性 能 被 优化 到 极限 的 序列 容器 
针 。 它 的 设计 经 过 了 深思 熟 虑 ， 标 准 库 的 设计 人 员 希 望 使 
链表 。 它 没有 back() 和 rbegin() 成 员 函 数 。 

std: :forward_list 与 内 存 管理 器 交互 的 方式 非常 简单 ， 也 是 可 预测 的 。 当 有 需要 时 ， 前 向 
链表 会 为 每 个 元 素 单 独 分 配 内 存 。 在 前 向 链表 中 没有 任何 未 使 用 的 空间 (请 参见 图 10-4) 。 
前 向 链表 中 的 每 个 元 素 所 分 配 到 的 存储 空间 都 是 相同 的 。 这 有 助 于 提高 复杂 的 内 存 管理 器 
的 工作 效率 ， 也 降低 了 出 现 内 存 碎片 的 风险 。 我 们 还 能 够 为 std: :forward_list 自 定 义 简 
单 的 内 存 分 配器 ， 利 用 这 个 特性 使 其 更 高 效 地 工作 (请 参见 10.4.3 节 )。 


10-4: std: :forward_List 的 可 能 实现 





号 。 它 有 一 个 指向 链表 头 部 节点 的 指 
它 尽 量 贴近 手动 编码 实现 的 单 向 







































































顾名思义 ， 前 向 链表 与 链表 的 不 同 在 于 它 只 提供 了 前 向 迭代 器 。 我 们 可 以 用 普通 的 循环 语 
句 来 遍历 前 向 链表 : 


std: :forward_list<kvstruct> flist; 


/ne 

unsigned sum = 0; 

for (auto it = flist.begin(); it != flist.end(); ++it) 
sum += it->value; 


不 过 ,插入 方法 则 不 同 。std::forward_list 并 没有 提供 insert() 方法 ， 取 而 代 之 的 是 
insert_after() 方法 。std: :forward_List 没有 提供 before_begin() 这 样 能 够 得 到 指向 第 一 
个 元 素 之 前 的 位 置 的 迭代 器 〈 由 于 所 有 元 素 都 只 有 指向 下 一 个 元 素 的 指针 ， 因 此 无 法 在 第 
一 个 元 素 前 插入 元 素 ) : 
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std: :forward_list<kvstruct> flist; 
std: :vector<kvstruct> vect; 


Va 
auto place = flist.before begin(); 
for (auto it = vvect.begin(); it != vect.end(); ++it) 


place = flist.insert _ after(place, *it); 


在 我 的 PC 上 ，std::forward_list 并 没有 比 std: :list 导致 std: :List 性 能 变 差 
的 原因 (为 每 个 元 素 单独 分 配 内 存 以 及 差劲 的 缓存 局 部 性 ) 也 同样 困扰 着 std: :forward_ 
list。 在 内 存 使 用 非常 严格 的 小 型 处 理 器 上 ， dt 可 能 有 用 武之 地 ， 但 是 在 
桌面 级 和 手持 级 处 理 器 上 则 不 建议 使 用 它 。 


10.5.1 std::forward_list 中 的 插入 和 删除 


只 要 提供 一 个 指向 要 插入 位 置 之 前 的 位 置 的 迭代 器 ，std: :forward_list 就 能 够 以 常量 时 
间 插 入 元 素 *。 使 用 这 种 方法 向 前 向 链表 中 插入 10 万 条 元 素 耗 时 4.24 毫秒 ， 这 个 时 间 与 
std::list 相当 。 


std::forward_list 还 有 一 个 push_front() 成 员 函 数 。 使 用 这 种 方法 前 向 链表 中 插入 10 万 
条 元 素 耗 时 4.16 毫秒 ， 这 个 时 间 也 与 std: :List 相当 。 

































































10.5.2 ”遍历 std: :forward_List 

std: :forward_List 没有 下 标 操作 符 。 壳 历 它 的 唯一 方式 是 使 用 友 代 器 。 

使 用 迭代 器 遍历 含有 10 万 条 元 素 的 前 向 链表 耗 时 0.343 毫秒。 这 仅仅 比 遍 历 vector 慢 了 
45%。 

10.5.3 ”对 std: :forward_List 排 序 


与 std::list 类 似 ，std: :forward_List 也 有 一 个 时 间 开 销 为 O(n logyn) 的 内 置 排序 函数 。 
对 这 个 排序 函数 进行 的 性 能 测试 结果 是 排序 10 万 条 元 素 耗 时 23.3 上 毫秒， 与 排序 std: :list 
的 性 能 相仿 。 

















10.5.4 ”查找 std::forward_list 

由 于 std::forward_list 只 提供 了 前 问 迭 代 器 ， 因 此 使 用 二 分 查找 算法 查找 前 向 链表 的 时 
间 开 销 是 O(n)。 使 用 更 加 简单 的 std: :find() 进行 查找 的 开销 也 是 Om)， 其 中 是 前 向 链 
表 中 元 素 中 的 数量 。 这 使 得 前 向 链表 难以 赫 代 关联 容器 

10.6 std::map 与 std: :muLtimap 


std::map 与 std: :multimap 的 “产品 手册 ”如 下 。 
。 有 序 关联 容器 





























注 2: 即使 用 insert_after() 成 员 函 数 。 一 一 译 者 注 
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。 插入 时 间 : OUdog27) 

。 索引 时 间 : 通过 键 进行 索引 的 时 间 开 销 为 O(logyn) 

。 除非 元 素 被 移 除 ， 否 则 友 代 器 和 引用 永远 不 会 失效 

。 利用 迭代 器 对 元 素 进 行 正 向 排序 或 是 反 向 排序 

std: :map 可 以 将 键 类 型 的 实例 映射 为 某 个 值 类 型 的 实例 。std::map 与 std: :List 一 样 ， 是 
一 种 基于 节点 的 数据 结构 。 不 过 ，map 会 根据 键 的 值 对 节点 排序 。map 的 内 部 实现 是 一 棵 带 
有 便于 使 用 迭代 器 遍历 的 额外 链接 的 平衡 二 又 树 (请 参见 图 10-5)。 









































10-5: std: :map 的 简化 后 的 可 能 的 实现 


尽管 std: :map 是 使 用 树 实现 的 ， 但 它 并 不 是 树 。 我 们 没有 办 法 得 到 map 中 市 点 之 间 的 链 
接 ， 也 无 法 进行 广度 优先 搜索 以 及 其 他 可 以 在 树 型 数据 结构 上 进行 的 操作 。 

std: :map 与 内 存 管理 器 交互 的 方式 非常 简单 ， 也 是 可 预测 的 。 当 有 需要 时 ，map 会 为 每 个 
元 素 单独 地 分 配 存储 空间 。std: :map 没有 内 部 骨干 数组 ， 不 会 重新 分 配 存 储 空 间 ， 因 此 在 
播 入 元 素 后 ， 指 向 元 素 的 迭代 器 和 引用 永远 不 会 失效 。 只 有 当 它 们 被 删除 后 ， 返 代 器 和 引 
用 才 会 失效 。 

map 为 每 个 元 素 分 配 的 存储 空间 的 大 小 是 相同 的 。 这 有 助 于 提高 复杂 的 内 存 管理 器 的 工作 
效率 ， 也 降低 了 出 现 内 存 碎片 的 风险 。 我 们 还 能 够 为 std: :map 自 定义 简单 的 内 存 分 配器 ， 
利用 这 个 特性 使 其 更 高 效 地 工作 (请 参见 10.4.3 节 )。 


10.6.1 std::map 中 的 插入 和 删除 


利用 迭代 器 从 vector 中 随机 地 向 std: :map 中 插入 100 000 条 元 素 耗 时 33.8 毫秒 。 


由 于 需要 遍历 map 的 内 部 树 来 找到 插入 位 置 ， 因 此 向 map 中 插入 一 个 元 素 的 时 间 开 销 通 
常 是 O(logn)。 这 个 开销 太 昂贵 了 ， 于 是 std::map 提供 了 另外 一 个 版 本 的 insert() 函 
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数 ， 该 函数 接收 一 个 额外 的 map 和 迭代 器 作为 参数 ， 利 用 这 个 参数 提示 map 在 迭代 器 所 指 
向 的 位 置 插入 元 素 会 更 高 效 。 如 果 这 种 提示 是 最 优 的 ， 那 么 插入 操作 的 均 摊 时 间 开 销 会 
降低 为 0(1)。 

关于 这 个 提示 ， 有 一 个 好 消息 和 一 个 坏 消 息 。 好 消息 是 带 提示 的 插入 永远 不 会 比 普通 插入 
更 慢 。 坏 消息 是 ， 位 置 提 示 所 建议 的 最 佳 值 在 C++11 中 发 生 了 变化 。 在 C++11 之 前 ， 播 
入 位 置 提示 的 最 佳 值 是 新 元 素 之 前 的 位 置 一 一 即 如 果 元 素 是 按照 排序 顺序 被 插入 的 ， 那 么 
就 是 上 一 次 插入 的 位 置 。 但 是 自 Ct+11 开始 ， 最 佳 插入 提示 的 位 置 变 为 了 新 元 素 之 后 的 位 
置 一 一 即 如 果 元 素 是 按照 排序 顺序 被 插入 的 ， 那 么 就 是 end()。 如 代码 清单 10-2 所 示 ， 要 
想 使 上 一 次 被 插入 的 元 素 是 最 佳 位 置 ， 程 序 应 当 反 向 遍历 已 排序 的 输入 数据 。 


代码 清单 10-2 ”使 用 C++11 风格 的 提示 从 已 排序 的 vector 中 插入 数据 到 map 中 


ContainerT test_container; 
std: :vector<kvstruct> sorted_vector; 



































Sd Eable or terted vector. beotnC sorted_vector .end()); 

auto hint = test_container.end(); 

for (auto it = sorted vector.rbegin(); it != sorted vector.rend(); ++it) 

hint = test_container.insert(hint, value type(it->key, it->value)); 

就 我 使 用 Visual Studio 2010 和 GCC 的 经 验 ， 它 们 的 标准 库 实现 要 么 领先 于 最 新 标准 ， 要 
么 漠 后 于 最 新 标准 。 其 结果 是 ， 如 果 使 用 C++11 风格 之 前 的 提示 优化 程序 ， 那 么 当 更 换 了 
新 的 编译 器 后 ， 即 使 该 编译 器 并 非 完全 符合 C++11 标准 ， 也 可 能 会 导致 程序 变 慢 。 
我 分 别 使 用 三 种 提示 对 插入 操作 进行 了 性 能 测试 : end()、C++11 之 前 的 标准 库 中 的 指向 
前 置 节 点 的 迭代 器 ， 以 及 C++11 的 标准 库 中 的 指向 后 继 节 点 的 志 代 右 ， 结 果 如 表 10-3 所 
示 。 在 执行 这 项 测试 之 前 也 需要 先 对 输入 数据 排序 。 


表 10-3: std: :map 的 带 提示 的 插入 操作 的 性 能 


























性 能 测试 每 次 调用 的 时 间 
有 序 矢量 insert() 18.0 毫秒 
有 序 矢 量 insert() 结束 提示 9.11 毫秒 
有 序 矢 量 insert() C++11 之 前 的 提示 。 ”14.4 毫秒 
有 序 矢量 insert() C++11 的 提示 8.56 毫秒 





看 起 来 Visual Studio 2010 已 经 实现 了 C++11 风格 的 提示 。 但 是 不 管 怎么 样 ， 所 有 的 提示 
都 比 无 提示 更 快 ， 也 都 比 不 带 提示 版 本 的 insert() 和 未 排序 的 输入 数据 集 快 。 

优化 “检查 并 更 新 ”惯用 法 

一 种 常用 的 编程 惯用 法 是 在 程序 中 先 检查 某 个 键 是 否 存 在 于 map 中 ， 然 后 根据 结果 进行 相 
应 的 处 理 。 当 这 些 处 理 涉 及 插入 或 是 更 新 键 所 对 应 的 值 时 ， 那 么 就 可 能 进行 性 能 优化 。 
理解 性 能 优化 的 关键 在 于 ， 由 于 需要 先 检 查 键 是 否 存在 于 map 中 ， 然 后 再 找到 插入 位 置 ， 
因此 map::find() 和 map::insert() 的 时 间 开 销 都 是 O(logn)。 这 两 种 操作 都 会 帝 历 map 的 
二 又 树 数据 结构 中 的 相同 的 节点 : 


iterator it = table.find(key); // O(log n) 
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if (it != table.end()) { 
// 找到 key 的 分 支 


it->second = value; 


else { 
// 没有 找到 key 的 分 支 
it = table.insert(key, valuyue); // 0(Log n) 
} 
如 果 程 序 程序 能 够 得 到 第 一 次 查找 的 结果 ， 那 么 就 能 够 将 其 作为 对 insert() 的 提示 ， 将 插 
入 操作 的 时 间 开 销 提 高 到 0(1)。 取 决 于 程序 的 需求 ， 有 两 种 方法 能 够 实现 这 个 惯用 法 。 如 
果 只 要 知道 是 否 找到 了 键 即 可 ， 那 么 可 以 使 用 返回 pair 的 版 本 的 insert()。 在 被 返回 的 
pair 中 保存 的 是 一 个 指向 找到 或 是 插入 的 元 素 的 迭代 器 以 及 一 个 布尔 型 变量 ， 当 这 个 布尔 
型 变量 为 true 时 表示 该 元 素 被 找到 了 ， 而 当 这 个 布尔 型 变量 为 false 时 表示 该 元 素 是 被 插 
入 的 。 当 程序 在 检查 元 素 是 否 存在 于 map 之 前 知道 如 何 初 始 化 元 素 ， 或 是 更 新 值 的 性 能 
销 并 不 大 时 ， 这 种 方法 非常 有 效 : 
std: :pair<valuye t, bool> result = table.insert(key, value); 


if (result.second) { 


// k 找 到 key 的 分 支 



































else { 


// 没有 找到 key 的 分 支 


第 二 种 方法 是 通过 调用 Lower_bound() 或 是 upper_bound() 找到 键 或 是 插入 位 置 作为 C++98 
风格 或 是 C++11 风格 的 提示 。Lower_bound() 会 返回 一 个 指向 map 中 那些 键 比 带 查找 的 键 
小 的 所 有 元 素 中 最 小 的 元 素 或 是 指向 end 的 迭代 器 。 当 要 插入 键 时 ， 这 个 迭代 器 就 是 插入 
位 置 提示 ， 而 当 要 更 新 已 经 存在 的 元 素 时 ， 它 指向 的 就 是 该 元 素 的 键 。 这 种 方法 对 于 待 插 
入 的 元 素 没有 任何 要 求 : 
iterator it = tabLe.Lower_bound(key); 
if (it == table.end() || key < it->first) { 
// 找到 key 的 分 支 
table.insert(it, key, value); 


} 

else { 
// 没有 找到 key 的 分 支 
it->second = value; 


} 




















10.6.2 ”遍历 std: :map 

使 用 运 代 器 遍历 一 个 含有 100 000 个 元 素 的 map 耗 时 1.34 毫秒， 这 是 使 用 迭代 器 遍历 一 个 
vector 耗 时 的 10 倍 。 

10.6.3 ”对 std: :map 排 序 


map 本 来 就 是 有 序 的 。 使 用 友 代 堪 遍 历 一 个 map 会 按照 键 和 查找 谓词 的 顺序 访问 元 素 。 请 
注意 ， 只 有 将 所 有 的 元 素 都 从 一 个 map 中 复制 到 另 一 个 map 中 ， 才 能 对 map 重 排序 。 
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10.6.4 查找 std: :map 


查找 map 中 的 所 有 100 000 条 元 素 耗 时 42.3 毫秒 。 相 比 之 下 ， 使 用 std: :Lower_bound() 查 
找 已 排序 的 vector 和 deque 中 的 所 有 100 000 条 元 素 分 别 耗 时 28.9 毫秒 和 35.1 毫秒 。 我 
在 表 10-4 中 总 结 了 vector 和 map 的 性 能 测试 结果 。 
表 10-4: vector 和 map 的 插入 和 查找 时 间 

插入 + 排序 查找 
vector 19.1 毫秒 28.9 毫秒 
map 33.8 毫秒 42.3 毫秒 
如 果 要 一 次 性 构造 一 个 含有 100 000 条 元 素 的 表 并 会 反复 对 其 进行 查找 ， 那 么 使 用 vector 
实现 会 更 快 。 如 果 表 中 保存 的 元 素 会 频繁 地 发 生 改 变 ， 例 如 对 表 进 行 插入 操作 或 是 删除 操 
作 ， 那 么 重 排序 基于 vector 的 表 可 能 会 抵消 它 原 本 在 查找 性 能 上 的 优势 。 



























































10.7 std::set 与 std: :muLtiset 


std::set 与 std::multiset 的 “产品 手册 ”如 下 。 

。 有 序 关 联 容器 

。 插入 时 间 : O(logyn) 

。 索引 时 间 : 通过 键 进行 索引 ， 时 间 开 销 为 (logyn) 
。 除非 移 除 元 素 ， 否 则 迭代 器 和 引用 永远 不 会 失效 
。 迭代 器 能 够 按照 正 序 或 反 序 遍 历 元 素 


我 没有 对 std: :set 进行 性 能 测试 。 在 Windows 操作 系统 上 ，std::set 和 std::multiset 使 
用 了 与 std: :map 相同 的 数据 结构 (请 参见 图 10-6) ， 因 此 它们 的 性 能 特点 与 map 相同 。 尽 
管 原则 上 能 够 使 用 其 他 不 同 的 数据 结构 实现 set， 但 这 么 做 是 没有 理由 的 。 


size=6 









































10-6: std: :set 简化 后 的 可 能 实现 
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std::map 与 std::set 之 间 的 一 个 不 同 点 是 查找 方法 返回 的 元 素 是 const 的 。 这 其 实 并 不 
是 什么 大 问题 。 如 果 你 真 的 想 使 用 set， 可 以 将 与 排序 关系 无 关 的 值 类 型 的 字段 声明 为 
mutable， 指 定 它们 不 参与 排序 。 当 然 ， 编 译 器 会 无 条 件 地 相信 开发 人 员 ， 因 此 不 要 擅自 改 
变 参 与 排序 的 成 员 ， 这 一 点 非常 重要 ， 否 则 set 数据 结构 会 失效 。 




















10.8 std::unordered map 与 std::unordered multimap 


std: :unordered_map 与 std: :unordered_multimap 的 “产品 手册 ”如 下 。 


。 无 序 关联 容器 。 

。 插入 时 间 : 平均 时 间 开销 为 0(1)， 最 差 情 况 时 间 开 销 为 O(n)。 

。 索引 时 间 : 通过 键 索 引 的 平均 时 间 开 销 为 0(1)， 最 差 情 况 时 间 开销 为 O(n)。 
。 再 计算 散 列 值 时 迭代 喜 会 失效 ， 只 有 在 移 除 元 素 后 引用 才 会 失效 。 

。 可 以 独立 于 大 小 (size) 扩大 或 是 缩小 它们 的 容量 (capacity)。 


std: :unordered_map 能 够 将 键 类 型 的 实例 映射 到 某 个 值 类 型 的 实例 上 。 这 种 方式 与 

std: :map 相似 。 不 过 ， 映 射 的 完成 过 程 不 同 。std: :unordered_map 被 实现 为 了 一 个 散 列 表 。 
会 被 转换 为 一 个 整数 散 列 值 ， 使 用 这 个 散 列 值 能 够 以 分 摊 平 均 和 常量 时 间 的 性 能 开销 从 

unordered_map 中 查找 到 值 。 

与 std: :string 一样 ，C++ 标准 也 限制 了 std: :unordered_map 的 实现 。 因 此 ， 尽 管 有 多 种 

方式 能 够 实现 散 列 表 ， 但 是 只 有 采用 了 动态 分 配 内 存 的 骨干 数组 ， 然 后 在 其 中 保存 指向 动 

态 分 配 内 存 的 节点 组 成 的 链表 的 桶 的 设计 ， 才 有 可 能 符合 标准 定义 。 

unordered_map 的 构造 是 昂贵 的 。 它 包含 了 为 表 中 所 有 元 素 动 态 分 配 的 节点 ， 另 外 还 有 一 个 

会 随 着 表 的 增长 定期 重新 分 配 的 动态 可 变 大 小 的 桶 数组 (图 10-7)。 因 此 ， 要 想 改善 它 的 

查找 性 能 ， 需 要 消耗 相当 多 的 内 存 。 每 次 桶 数组 重新 分 配 时 ， 迫 代 器 都 会 失效 。 不 过 ， 只 

有 在 删除 元 素 时 ， 指 向 元 素 节 点 的 引用 才 会 失效 。 

像 std: :unordered_map 这 样 的 散 列 表 有 几 个 参数 能 够 调整 性 能 。 从 开发 人 员 的 角度 看 ， 这 

可 能 是 一 个 优点 ， 也 可 能 是 一 个 缺点 。 


unordered_map 中 元 素 的 数量 就 是 它 的 大 小 。 计 算出 的 size / buckets 比例 称 为 负载 系 
数 (load factor)。 负 载 系数 大 于 1.0 表示 有 些 桶 有 一 条 多 个 元 素 链接 而 成 的 元 素 链 ， 降 
低 了 查询 这 些 键 的 性 能 (换言之 ， 非 完美 散 列 )。 在 实际 的 散 列表 中 ， 即 使 负载 系数 小 于 
1.0， 键 之 间 的 冲突 也 会 导致 形成 元 素 链 。 负 载 系数 小 于 1.0 表示 存在 着 未 被 使 用 ， 但 却 在 
unordered_map 的 骨干 数组 中 占用 了 存储 空间 的 桶 (换言之 ， 非 最 小 散 列 ) 。 当 负载 系数 小 
于 1.0 时 ，(1 - 负载 系数 ) 的 值 是 空 桶 数量 的 下 界 ， 但 是 由 于 散 列 函数 可 能 非 完美 ， 因 此 
未 使 用 的 存储 空间 通常 更 多 。 
负载 系数 在 unordered_map 中 是 一 个 因 变 数 。 我 们 能 够 在 程序 中 观察 到 它 的 值 ， 但 是 无 法 
在 重新 分 配 内 存 后 直接 设置 或 是 预测 它 的 值 。 当 一 条 元 素 被 插入 到 unordered_map 中 后 ， 
如 果 负 载 系数 超过 了 程序 指定 的 最 大 负载 系数 值 ， 那 么 桶 数组 会 被 重新 分 配 ， 所 有 的 元 素 
都 被 会 重新 计算 散 列 值 ， 这 个 值 会 被 保存 在 新 数组 的 桶 中 。 由 于 桶 数量 的 增长 总 是 因 负 载 
系数 大 于 1 而 引起 的 ， 因 此 插入 操作 的 均 摊 时 间 开 销 O(1)。 当 最 大 负载 系数 大 于 1.0 这 个 
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默认 值 时 ， 插 入 操作 和 查找 操作 的 性 能 会 显著 降低 。 通 过 将 最 大 负载 系数 降低 到 1.0 以 下 
能 够 适度 地 提高 程序 性 能 。 

















10-7: unordered_map 的 可 能 的 实现 


我 们 能 够 通过 unordered_map 的 构造 函数 的 参数 指定 桶 的 初始 数量 。 除 非 容 器 大 小 超过 
了 ( 桶 * 负载 系数 )， 否 则 不 会 进行 重新 分 配 。 程 序 可 以 通过 调用 rehash() 成 员 函 数 增 
加 unordered_map 中 桶 的 数量 。 我 们 可 以 通过 调用 rehash(size_t n) 将 桶 的 数量 的 最 小 
值 设置 为 n， 接 着 重新 分 配 骨 干 数组 ， 并 通过 将 所 有 元 素 移动 到 新 数组 中 的 对 应 的 桶 中 
来 重组 表 。 如 果 n 小 于 当前 桶 数量 ，rehash() 可 能 会 ， 也 可 能 不 会 减 小 表 的 大 小 并 重新 
计算 散 列 值 。 
调用 reserve(size_t n) 可 以 确保 在 重新 分 配 骨 干 数 组 之 前 预 留 出 足够 的 空间 来 保存 n 条 
元 素 。 这 等 价 于 调用 rehash(ceil(n/max_load_factor()))。 
调用 unordered_map 的 clear() 成 员 函 数 会 清除 所 有 的 元 素 ， 并 将 所 有 存储 空间 返回 给 内 
存 管理 器 。 这 与 vector 或 是 string 的 clear() 成 员 函 数 相 比 是 一 种 更 有 力 的 承诺 。 
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与 其 他 C++ 标准 库容 器 不 同 的 是 ，std: :unordered_map 通过 为 人 帝 历 桶 和 为 侦 历 桶 中 的 元 素 
提供 一 个 接口 ， 暴 露 自己 的 实现 结构 。 计 算 每 个 桶 中 的 元 素 链 的 长 度 能 够 帮助 我 们 发 现 散 
列 函数 的 问题 。 如 代码 清单 10-3 所 示 ， 我 使 用 这 个 接口 计算 过 散 列 函数 的 质量 。 


代码 清单 10-3” 帘 探 std: :unordered_map 的 行为 


template<typename T> void hash_stats(T const& table) { 
unsigned zeros = 0; 
unsigned ones = 0; 
unsigned many = 0; 
unsigned many_sigma = 0; 
for (unsigned i = 0; i < table.bucket count(); ++i) { 
unsigned how_many_this bucket = 0; 
for (auto it = table.begin(i); it != table.end(i); ++it) { 
how_many_this_ bucket += 1; 






































} 
switch(how_many_this_ bucket) { 
Case 0: 
zeros += 1; 
break; 
Case 1: 
ones += 1; 
break; 
default: 
many += 1; 
many_sigma += how_many_this_bucket; 
break; 
} 


} 
std::cout << "unordered map with " << table.size() 
<< " entries" << std::endl 
<<" " << table.bucket count() << " buckets" 
<< " load factor " << table.load factor() 
<< ", max Load factor 
<< table.max_load_factor() << std::endl; 
if (ones > 0 && many > 0) 
std::cout << " " << zeros << 
<< ones << " buckets with one entry, 
<< many << " buckets with multiple entries, 
<< std::endl; 
if (many > 0) 
std::cout << average length of multi-entry chain 
<< ((float) many_sigma) / many << std::endl; 


empty buckets, 


} 


我 发 现 ， 如 果 使 用 Boost 项 目 中 的 散 列 函数 ， 那 么 15% 的 元 素 会 冲突 ， 自 动 分 配 存 储 空间 
得 到 的 表 的 负载 系数 为 0.38， 这 意味 着 62% 的 骨干 数组 都 没有 被 使 用 。 这 个 散 列 函数 远 比 
我 所 期 待 的 差 。 


10.8.1 std::unordered_map 中 的 插入 与 删除 


与 std: :map 类 似 ，std: :unordered_map 也 提供 了 两 种 插入 方法 ， 带 插入 提示 的 和 不 带 插入 
提示 的 。 但 与 map 不 同 的 是 ，unordered_nap 并 不 使 用 插入 提示 。 这 只 是 一 种 接口 兼容 性 。 

















和 兰 


206 | 第 10 章 








不 过 尽管 它 并 不 做 任何 事情 ， 但 也 会 带 来 一 点 性 能 惩罚 。 


对 插入 操作 进行 的 性 能 测试 结果 是 15.5 毫秒 。 通 过 调用 reserve() 预先 分 配 足够 的 桶 来 避 
免 重新 计算 散 列 值 ， 能 够 在 某 种 程度 上 提高 插入 操作 的 性 能 。 使 用 这 种 方法 的 测试 结果 是 
耗 时 14.9 毫秒 ， 与 之 前 的 结果 相 比 性 能 只 提高 了 49% 。 


通过 将 最 大 负载 系数 设置 为 非常 大 的 值 ， 可 以 推迟 重新 分 配 的 发 生 。 我 使 用 了 这 种 方 
法 ， 并 在 所 有 元 素 都 被 插入 后 重新 计算 了 散 列 值 ， 想 看 看 这 是 否 对 改善 性 能 有 帮助 。 对 于 
Visual Studio 2010 的 标准 库 中 的 unordered_map， 测 试 结果 是 性 能 反而 降低 了 , 令 人 有 些 注 
丧 。 很 明显 ， 以 Visual Studio 的 实现 方式 元 素 被 插入 在 了 冲突 链 的 末尾 ， 因 此 每 次 插入 操 
作 的 时 间 开 销 从 常量 时 间 增 加 为 了 O(n)。 可 能 有 其 他 更 好 的 实现 方式 不 存在 这 个 问题 。 
















































































10.8.2 ”遍历 std: :unordered_map 
代码 清单 10-4 是 一 段 遍 历 std: :unordered_map 的 代码 。 





代码 清单 10-4 遍历 std: :unordered_map 中 的 元 素 


for (auto it = test_container.begin(); 
it != test_container .end(); 
++it) { 
sum += it->second; 


4 


顾名思义 ，unordered_map 无 法 被 排序 ， 使 用 进 代 器 遍历 unordered_map 中 元 素 的 顺序 也 是 
无 规则 的 。 使 用 友 代 器 所 历 unordered_map 相对 比较 高 效 ， 只 需要 0.34 毫秒 。 这 仅仅 是 使 
用 友 代 器 志 历 std:vector 时 间 的 2.8 倍 。 


10.8.3 查找 std: :unordered_map 


查找 才 是 std: :unordered_map 存在 的 理由 。 我 使 用 std: :Lower_bound() 对 含有 100 000 条 
键 值 对 的 基于 unordered_map 的 表 和 基于 vector 的 有 序 表 进 行 了 查找 性 能 对 比 测试 。 
在 我 的 测试 中 ， 对 std: :unordered_map 执行 100 000 次 查找 耗 时 10.4 写 秒 。 如 表 10-5 所 
示 ， 这 上 比 查 找 std::map 快 了 3 倍 ， 比 使 用 std::Lower_bound() 查找 有 序 的 std: :vector 快 
了 1.7 倍 。 是 的 ， 查 找 std: :unordered_map 更 加 高 效 ， 而 且 高 效 很 多 。 但 散 列表 是 如 此 受 
开发 人 员 器 重 ， 我 原本 期 待 会 出 现 跨 数量 级 的 性 能 提升 ， 但 结果 却 没 有 看 到 。 

表 10-5: vector、map 和 unordered_map 的 插入 和 查找 的 时 间 开 销 

















插入 + 排序 查找 
map 33.8 毫秒 42.3 毫秒 
vector 19.1 训 秒 28.9 毫秒 
unordered_map 15.5 毫秒 10.4 毫秒 





与 std: :map 相 比 ，unordered_map 的 构建 速度 和 查找 速度 都 更 快 。unordered_map 的 缺点 在 
于 它 所 使 用 的 存储 空间 容量 。 如 果 是 在 一 个 存储 空间 极其 受 限 的 环境 中 ， 我 们 可 能 需要 使 
用 基于 std: :vector 的 更 加 紧凑 的 表 ， 如 果 不 是 ， 我 们 就 可 以 使 用 unordered_map 得 到 更 高 
的 性 能 。 
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10.9 其 他 数据 结构 


标准 库容 器 类 虽然 非常 有 用 ， 但 并 非 唯一 的 数据 结构 选择 。Boost (http://www.boost.org/) 
库 提 供 了 一 组 类 似 标 准 库容 器 的 数据 结构 。Boost 提供 了 以 下 包含 其 他 可 选 容 器 的 库 。 


boost::circular_buffer (http://www.boost.org/doc/libs/1_60_0/doc/html/circular_buffer.htm!l) 
在 许多 方面 都 与 std: :deque 类 似 ， 但 更 加 高 效 。 


Boost.Container (http://www.boost.org/doc/libs/1_60_0/doc/html/container.html) 

标准 库容 器 的 各 种 变种 ， 包 括 一 种 稳定 的 vector (一 种 发 生 重新 分 配 也 不 会 造成 迭代 器 
失效 的 vector) ;一 组 作为 std: :vector 的 容器 适配器 实现 的 map/multimap/set/multiset; 
一 个 长 度 可 变 但 最 大 长 度 固 定 的 静态 vector， 以 及 一 个 当 只 有 几 个 元 素 时 具有 最 优 行 
为 的 vector 。 


dynamic_bitset (http://www.boost.org/doc/libs/ 1_60_0O/libs/dynamic_bitset/dynamic_bitset.htm!l) 
看 起 来 像 是 位 组 成 的 vector。 


Fusion (http://www.boost.org/doc/libs/1_60_0/libs/fusion/doc/html/) 
元 组 上 的 容器 和 进 代 器 。 
Boost 图 形 库 (BGL,， http://www.boost.org/doc/libs/1_60_0/libs/graph/doc/index.htm!l) 
适用 于 遍历 图 形 的 算法 和 数据 结构 。 
boost .heap (http://bit.ly/b-heap/) 
比 简单 std: :priority_queue 容器 适配器 具有 更 好 性 能 和 更 微妙 行为 的 优先 队列 。 
Boost.Intrusive (http://www.boost.org/doc/libs/ 1_60_0/doc/html/intrusive.htm!l) 
提供 了 侵入 式 容器 (依赖 于 显 式 地 包含 链接 的 节点 类 型 的 容器 )。 侵 入 容器 的 重点 是 提 
高 热点 代码 的 性 能 。 这 个 库 包 含 单 向 和 双 癌 链表 、 关 联 容器 、 无 序 关联 容器 和 各 种 显 式 
平衡 树 实现 。 在 大 多 数 容器 中 都 加 入 了 make_shared、 移 动 语义 和 emplace() 成 员 范 数 ， 
减少 了 对 侵入 式 容器 的 需求 。 
boost. lockfree (http://www.boost.org/doc/libs/1_60_0/doc/html/lockfree.html) 
无 锁 (lock-free) 和 无 等 待 (wait-free) 的 队列 和 栈 。 


Boost.MultiIndex (http://www.boost.org/doc/libs/ 1_60_0/libs/multi_index/doc/index.htm!l) 
有 多 个 具有 不 同行 为 的 索引 的 容器 。 
毫 无 疑问 ，Boost 中 还 有 其 他 容器 类 。 
对 标准 库容 器 类 的 另 一 个 巨大 贡献 来 自 于 游戏 公司 艺 电 (Electronic Arts，EA)， 他 们 开源 
了 名 为 “EASTL” (http://www.open-std.org/jtcl/sc22/wg21/docs/papers/2007/n2271.html) 的 
标准 库容 器 类 。 艺 电 对 标注 库容 器 类 的 贡献 包括 : 
。 一 个 更 简单 和 更 合理 的 ALLocator 的 定义 
。 对 容器 提供 了 更 有 力 的 保证 ， 包 括 保证 容器 不 会 调用 内 存 管理 器 ， 除 非 程 序 将 元 素 放 到 
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容器 中 








































































































。 具有 更 多 的 可 编程 性 的 std: :deque 
。 一 组 与 Boost 所 提供 的 容器 类 似 的 容器 


10.10 小结 


。 斯 特 潘 诺 夫 的 标准 模板 库 是 第 一 个 可 复 用 的 高 效 容器 和 算法 库 。 

。 各 容器 类 的 大 O 标记 性 能 并 不 能 反映 真实 情况 。 有 些 容器 比 其 他 容器 快 许多 倍 。 

。 在 进行 插入 、 删 除 、 遍 历 和 排序 操作 时 std: :vector 都 是 最 快 的 容器 。 

。 使 用 std: :Lower_bound 查 找 有 序 std: :vector 的 速度 可 以 与 查找 std: :map 的 速度 相 匹敌 。 

。 std::deque 只 比 std: :List 稍 快 一 点 。 

。 std::forward_list 并 不 比 std: :list 更 快 。 

。 散 列 表 std: :unordered_map 比 std: :map 更 快 ， 但 是 相 比 所 受到 的 开发 人 员 的 器 重 程度 ， 
它 并 没有 比 std: :map 快 上 一 个 数量 级 。 

。 互联 网 上 有 丰富 的 类 似 标 注 库 容器 的 容器 资源 。 
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程序 是 对 计算 机 施 的 魔法 ， 它 将 输入 转换 为 错误 信息 。 
rp TE 

本 章 将 会 讲解 如 何在 读 写 文本 数据 时 高 效 地 使 用 C++ 流 VO 函数 。 读 写 文件 是 再 普通 不 过 
的 活动 了 ， 以 至 于 开发 人 员 往 往 忽 略 了 它们 ， 但 是 实际 上 它们 却 是 非常 耗 时 的 程序 活动 。 
人 类 是 感受 不 到 地 球 旋转 的 ， 同 样 ， 磁 盘 的 旋转 之 于 如 今 计算 机 的 超 快速 世 片 也 是 非常 笨 
重 而 缓慢 的 。 读 头 必 须 殉 服 惰性 将 它们 的 身体 从 一 条 磁道 移动 到 另外 一 条 磁道 上 。 这 种 物 
理 特性 严重 制约 了 硬件 性 能 的 提升 。 互 联网 世界 受 限 于 数据 传输 速率 和 和 索 忙 的 服务 器 ， 响 
应 延迟 可 能 是 以 毫秒 而 非 秒 计 量 的 。 当 将 数据 传 向 远方 的 计算 机 时 ， 即 使 是 光速 传输 ， 传 
输 时 间 也 会 成 为 一 个 影响 性 能 的 因素 。 
JI/O 的 另外 一 个 癌 题 是 在 用 户 的 程序 与 旋转 的 磁盘 或 是 网 卡 之 间 有 太 多 的 代码 。 为 了 使 IO 
尽 可 能 地 高 效 ， 必 须 尽 量 减 小 所 有 这 些 代码 的 性 能 开销 。 


11.1 读 取 文 件 的 秘诀 


网 上 有 许多 文件 读 写 方法 (http://insanecoding.blogspot.com/2011/11/how-to-read-in-file-in-c. 
html)， 其 中 有 一 些 自称 读 写 速度 非常 快 。 从 我 对 它们 进行 的 性 能 测试 结果 看 ， 它 们 之 间 的 
性 能 差距 达到 了 一 个 数量 级 。 即 使 是 不 会 随意 使 用 互联 网 上 那些 未 经 确认 的 秘诀 (如 极度 
危险 的 制作 炸弹 的 方法 或 错误 的 训 饪 秘方 ) 的 聪明 读者 ， 也 可 能 会 自 以 为 聪明 地 使 用 这 些 
方法 编写 读 取 文件 的 C++ 程序 。 
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优化 战争 故事 
我 的 弟 媳 Marcia 非常 喜爱 烤 馅 饼 , 但 她 总 是 对 她 找到 的 饼 皮 配方 不 满意 。 她 的 饼 皮 总 
是 做 不 到 像 她 品尝 过 的 最 棒 的 馅 饼 一 样 松 脆 。 尽 管 Marcia 并 非 一 位 软件 开发 人 人员， 但 
她 却 是 一 位 优化 高 手 ， 她 做 了 下 面 这 些 事情 。 


她 收集 了 很 多 自称 “最 棒 的 饼 皮 ”的 配方 。 她 注意 到 这 些 配方 都 有 共同 的 原料 : 面粉 、 
食盐 、 水 和 酥油 。 接 着 ， 她 找 出 了 这 些 配方 之 间 的 区 别 。 有 些 配 方 使 用 黄油 或 猪 油 替 
代 蔬 菜 酥 油 。 有 些 配 方 要 求 使 用 冷 原 料 ， 或 是 在 失 面 团 之 前 先 将 其 冷却 。 有些 加 入 了 
一 点 食糖 、 一 是 醋 或 是 一 个 鸡蛋 。Marcia 从 这 些 配 方 中 挑 选 了 独特 的 建议 ， 并 进行 了 
几 个 月 的 实验 。 最 后 ， 她 耐心 做 实验 的 结果 是 组 合 了 这 些 配方 中 的 若干 建议 ， 做 出 了 
令 人 惊叹 的 饼 皮 。 











如 同 我 弟 媳 做 的 优化 努力 一 样 ， 我 也 发 现 了 几 个 能 够 改善 读 取 文 件 的 函数 性 能 的 技巧 ， 而 
且 它 们 之 中 许多 都 能 够 组 合 起 来 使 用 。 我 同时 还 发 现 了 一 些 几乎 没有 价值 的 技巧 。 


代码 清单 11-1 是 一 个 将 文件 读 取 到 字符 串 中 的 简单 函数 。 我 碰 到 过 很 多 次 这 样 的 代码 了 ， 
特别 是 在 解析 XML 或 是 JSON 前 经 常会 出 现 这 样 的 代码 。 


代码 清单 11-1 初始 版 本 的 file_reader() 函数 


std: :string file reader(char const* fname) { 
std: :ifstream f; 
f.open(fname); 
if (!f) { 
std::cout << "Can't open " << fname 
<< " for reading" << std::endl; 
return ""; 














3 


std::stringstream s; 
std::copy(std::istreambuf_iterator<char>(f.rdbuf()), 
std::istreambuf_iterator<char>(),， 

std: :ostreambuf_iterator<char>(s) ); 
return s.str(); 


} 


fname 是 文件 名 。 如 果 打 不 开 文件 ，file_reader() 会 打印 一 条 错误 信息 到 标准 输出 中 并 返 
回 空 字符 串 。 否 则 ，std: :copy() 会 将 f 的 流 缓冲 区 复制 到 std::stringstream s 的 流 缓 促 
区 中 。 


11.1.1 创建 一 个 音 理 的 函数 签名 


从 库 设 计 的 角度 看 ，file_reader() 是 可 以 改善 的 (请 参见 8.3.2 节 )。 它 做 了 几 件 不 同 
的 事情 : 打开 文件 ， 进 行 错误 处 理 (以 报告 打开 文件 出 错 的 形式 ) ; 读 取 已 打开 且 有 效 
的 流 到 字符 串 中 。 作 为 一 个 库 函 数 ， 这 儿 种 职责 混合 在 一 起 使 得 调用 方 难以 使 用 file_ 
reader() 函数 。 例 如 ， 如 果 客 户 端 程序 实现 了 自己 的 异常 处 理 ， 或 者 需要 在 错误 消息 字符 
串 中 使 用 Windows 资产， 甚至 仅仅 想 要 打印 到 std: :cerr 中 ， 就 无 法 使 用 file_reader()。 
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file_reader() 同样 还 会 分 配 一 块 新 的 内 存 并 返回 它 ， 这 里 存在 一 个 潜在 的 问题 ， 因 为 这 
会 导致 返回 值 在 调用 链 中 传递 的 时 候 发 生 多 次 复制 (请 参见 6.5.4 节 )。 如 果 文 件 无 法 打开 ， 
file_reader() 会 返回 空 字符 串 。 如 果 文 件 能 够 打开 ， 但 是 其 中 一 个 字符 都 没有 ， 那 么 它 也 
会 返回 一 个 空 字符 串 。 要 是 file_reader() 能 够 给 出 错误 提示 就 好 了 ， 这 样 就 能 够 分 辨 这 两 
种 情况 。 

代码 清单 11-2 是 file_reader() 的 升级 版 ， 它 分 离 了 打开 文件 处 理 与 读 取 流 处 理 ， 并 且 有 
一 个 用 户 不 会 立刻 想 要 改变 的 函数 签名 。 


代码 清单 11-2” 带 有 将 章 国 数 签名 的 stream_read_streambuf_stringstream() 


void stream read_streambuf_stringstream( 
std::istream& f, 
std::string& result) { 
std::stringstream s; 
std::copy(std::istreambuf_iterator<char>(f.rdbuf()), 
std::istreambuf_iterator<char>(), 
std: :ostreambuf_iterator<char>(s) ); 
std::swap(result, s.str()); 

















} 


stream_read_streambuf_stringstream() 的 最 后 一 行将 result 的 动态 存储 空间 与 s.str() 
的 动态 存储 空间 进行 了 交换 。 我 本 来 可 以 不 进行 交换 ， 将 s.str() 赋值 给 result 即 
可 ,但 是 除非 编译 器 和 标准 库 实现 都 支持 移动 语义 ， 否 则 这 样 做 会 导致 内 存 分 配 和 复制 。 
std: :swap() 对 许多 标准 库 类 的 特 化 实现 都 是 调用 它们 的 swap() 成 员 函 数 。 该 成 员 函 数 会 
交换 指针 ， 这 远 比 内 存 分 配 和 复制 操作 的 开销 小 。 


将 音 的 回报 是 f 变 成 了 std::istreamn， 而 不 是 std::ifstream。 现 在 ， 这 个 函数 可 以 与 
std::stringstrean 等 其 他 类 型 的 流 一 起 工作 ， 而 且 它 更 短 ， 更 易 读 ， 只 有 一 个 概念 上 的 运 
算 而 已 。 


客户 端 代码 可 以 如 下 这 样 调用 stream_read_streambuf_stringstream(): 


std::string s; 
std: :ifstream f; 
f.open(fname); 
if (If) { 
std::cerr << "Can't open " << fname 
<< " for reading" << std::endl; 














} 
else { 

stream_read_streambuf_stringstream(f, s); 
} 


请 注意 ， 现 在 客户 端 需 要 负责 打开 文件 和 报告 错误 了 ， 尽 管 读 取 流 的 “魔法 ”依然 在 
stream_read_streambuf_stringstream() 中 一 一 只 是 这 个 版 本 的 函数 并 没有 强大 的 魔力 。 
我 进行 了 一 项 性 能 测试 : 读 取 一 个 含有 10 000 行文 字 的 文件 100 次 。 这 项 测试 充分 地 考 
验 了 C++ 标准 VO 的 性 能 。 由 于 是 反复 读 取 同 一 个 文件 ， 操 作 系统 几乎 总 是 会 缓存 文件 
内 容 。 但 在 实际 情况 中 是 很 难 出 现 这 样 的 循环 处 理 的 ， 所 以 在 Visual Studio 2010 和 Visual 
Studio 2015 上 ,该 函数 消耗 的 时 间 可 能 会 比 性 能 测试 结果 的 1548 毫秒 更 长 。 
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由 于 这 段 程序 会 读 取 磁盘 ， 而 且 在 我 的 计算 机 上 只 有 一 块 磁盘 ， 这 项 性 能 测试 比 其 他 测试 
更 容易 受到 PC 上 的 磁盘 活动 的 影响 。 因 此 ， 我 不 得 不 关 控 丁 计算 机 上 所 有 非 必 怖 的 程序 ， 
停止 了 计算 机 上 所 有 非 必 需 的 服务 。 即 使 是 这 样 ， 我 仍然 不 得 不 进行 多 次 性 能 测试 ， 并 以 
多 次 测量 结 # 果 中 的 最 小 值 为 最 终结 果 。 


尽管 stream_read_streambuf_stringstream() 使 用 了 标准 库 惯 用 法 ， 但 并 非特 别 高 
效 。 它 使 用 字符 迭代 器 一 次 复制 一 个 字符 。 因 此 我 有 理由 怀疑 每 获取 一 个 字符 都 会 在 
std: :istrean 中 ， 甚 至 是 在 主机 操作 系统 的 文件 IO API 中 发 生 大 量 的 机 械 操 作 。 同 样 ， 
我 有 理由 认为 std: :stringstream 中 的 std: :string 每 次 只 会 增长 一 个 字符 ， 导 致 产生 了 对 
内 存 分 配器 的 大 量 调 用 。 


“复制 流 迭 代 器 ”的 设计 思想 有 几 个 变种 。 代 码 清 单 11-3 使 用 std: :string::assign() 将 一 
个 迭代 器 从 输入 流 中 复制 到 一 个 std: :string 中 。 


代码 清单 11-3” 男 一 种 复制 流 迭 代 器 的 文件 读 取 函数 
void stream_read_streambuf_string( 
std: :istream& f, 
std::string& result) { 
result.assign(std::istreambuf_iterator<char>(f.rdbuf()), 
std::istreambuf_iterator<char>()); 
















































































} 


在 Visual Studio 2010 上 ， 这 段 代码 的 性 能 测试 结果 是 1510 毫秒， 而 在 Visual Studio 2015 
上 则 是 1787 毫秒 。 


11.1.2 ”缩短 调用 链 
代码 清单 11-4 是 “一 次 一 个 字符 ”的 另 一 个 变种 。std: :istreamn 有 一 个 << 运算 符 ， 它 接 
收 流 缓冲 区 作为 参数 。<< 运算 符 可 能 会 绕 过 istream API 直接 调用 流 缓冲 区 。 


代码 清单 11-4 添加 stream 到 stringstrean 中 ， 一 次 一 个 字符 


void stream read_streambuf(std::istream& f, std::string& result) { 
std::stringstream s; 
s << f.rdbuf(); 
std: :swap(result, s.str()); 


} 
在 Visual Studio 2010 上 这 段 代 码 的 性 能 测试 结果 是 1294 毫秒 ， 而 在 Visual Studio 2015 
上 则 是 1181 毫秒 4] stream_read_ 


streambuf_string() 快 了 17% 和 51%。 我 猪 测 原因 是 底层 代码 调用 的 机 械 操作 较 少 。 


11.1.3 减少 重新 分 配 


0 streambuf_string() 中 剖 藏 着 性 能 优化 的 希望 之 种 。 尽 管 没 有 明显 的 方 
法 来 优化 “遍历 流 缓冲 区 ”惯用 法 ， 但 是 我 们 可 以 调用 reserve() 为 存储 文件 内 容 的 
std: :string 0 来 防止 随 着 字符 串 逐 字符 的 增长 发 生 重 新 分 配 。 代 码 清 单 
11-5 是 用 于 检验 这 个 想法 是 否 能 改善 性 能 的 代码 。 
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代码 清单 11-5 ”stream_read_string_reserve(): 为 result 预先 分 配 存 储 空间 


void stream_read_string_reserve(std: :istream& f, 
std: :string& result) 

{ 

f.seekg(0, std: :istream: :end); 

std::streamoff len = f.tellg(); 

f.seekg(0); 

if (len > 0) 

result.reserve(static cast<std::string::size type>(len)); 


result.assign(std::istreambuf_iterator<char>(f.rdbuf()), 
std::istreambuf_iterator<char>()); 


} 


stream_read_string_reserve() 通过 将 它 的 流 指针 移动 到 流 尾部 ， 读 取 偏 移 量 后 再 将 流 指 
针 复 位 到 流 头 部 来 计算 流 长 度 。istream: :tellg() 实际 上 返回 一 个 代表 流 指针 位 置 的 小 
型 结构 体 ， 其 中 包含 一 个 部 分 读 取 UTF-8 多 字 节 字符 的 偏 移 量 。 幸 运 的 是 ， 这 个 结构 体 
能 被 转换 为 有 符号 整数 类 型 。 之 所 以 这 个 类 型 必须 是 有 符号 的 ， 是 因为 teLLg() 可 能 会 
败 一 一 例如 当 流 没有 被 打开 时 或 是 发 生 错 误 时 ， 抑 或 是 到 达 文件 末尾 时 一 一 这 时 它 会 返回 
-1。 如 果 tellg() 返回 偏 移 量 而 非 -1， 那 么 就 像 代 码 清单 4-3 中 的 remove_ctrl_reserve() 
那样 ， 我 们 可 以 使 用 这 个 值 作为 对 std: :string: :reserve() 的 提示 来 预先 为 整个 文件 分 配 
足够 的 存储 空间 。 


stream_read_string_reserve() 验证 了 猜想 : 设置 文件 指针 两 次 的 开销 比 调 用 reserve() 以 
避免 内 存 重 新 分 配 的 开销 小 。 这 并 非 确 定 无 颖 的。 如 果 设 置 文件 指针 指向 文件 末尾 导致 文 
件 中 的 所 有 磁盘 局 区 都 需要 被 读 取 ， 那 么 就 会 产生 大 量 的 性 能 开销 。 但 是 另 一 方面 ， 在 读 
取 这 些 磁盘 局 区 后 ， 操 作 系统 可 能 会 缓存 它们 ， 从 而 减少 了 其 他 性 能 开销 。 也 许 这 取决 于 
文件 大 小 。C++ 可 能 除了 读 取 目 录 项 (directory entry) 外 不 需要 读 取 任 何其 他 信息 ， 或 是 
调用 一 个 或 多 个 依赖 于 操作 系统 的 函数 ， 就 可 以 找到 指向 文件 末尾 的 文件 指针 。 


当 推 测 像 这 样 堆积 起 来 时 ， 经 验 丰富 的 性 能 优化 人 员 意 识 到 ， 花 费时 间 找 到 这 些 问 题 的 答 
案 的 成 本 大 高 了 ， 而 且 即 使 解决 了 这 些 问 题 ， 所 带 来 的 收益 也 是 不 确定 的 。 做 一 次 实验 就 
能 够 很 快 知道 ， 通 过 找到 指向 文件 末尾 的 指针 来 获取 文件 大 小 的 C++ 惯用 法 是 否 对 我 们 
有 帮助 。 在 Windows 系统 上 的 测试 中 ，stream_read_string_reserve() 并 没有 比 stream_ 
read_streambuf_string() 表现 得 更 好 。 不 过 ， 这 可 能 只 是 意味 着 与 这 种 读 取 文 件 的 方法 的 
其 他 低 效 之 处 相 比 ， 改 善 的 程度 并 不 明显 。 


计算 流 长 度 并 预先 分 配 存储 空间 的 技巧 很 实用 。 优 秀 的 库 设 计 总 是 会 在 它们 自己 的 函数 中 
复 用 这 些 工具 。 代 码 清单 11-6 展示 了 一 个 实现 了 这 项 技巧 的 stream_size() 国 数 。 


代码 清单 11-6 stream_size(): 计算 流 长 度 


std::streamoff stream size(std::istreamg& f) { 
std::istream: :pos_type current pos = f.tellg(); 
if (-1 == current_pos) 
return -1; 
f.seekg(0,std: :istream: :end); 
std::istream: :pos_type end_pos = f.tellg(); 
f.seekg(current_pos); 
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return end_pos - current_pos; 


} 


读 取 流 的 函数 可 能 会 在 流 已 经 被 部 分 消费 后 被 调用 。stream_size() 会 通过 先 保存 流 指针 的 
当前 位 置 ， 然 后 找到 指向 流 末 尾 的 流 指针 ， 最 后 计算 当前 位 置 与 末尾 位 置 之 间 的 差 值 ， 来 
应 对 这 种 可 能 性 。 在 国 数 处 理 结束 前 ， 流 指针 会 重新 指向 之 前 保存 的 当前 位 置 。 这 比 只 是 
简单 地 计算 流 长 度 的 stream_read_string_reserve() 更 加 正确 。 这 也 是 另外 一 个 向 我 们 展 
示 了 优秀 的 库 设 计 使 函数 更 加 灵活 和 通用 的 例子 。 

代码 清单 11-7 是 另 一 个 版 本 的 stream_read_string()， 它 要 求 在 函数 外 估算 出 文件 大 小 。 
这 人 允许 开发 人 员 在 无 法 决定 流 大 小 时 使 用 一 个 估算 值 。 当 没有 提供 估算 值 时 ， 该 函数 的 默 
认 行 为 与 stream_read_string() 相同 。 










































































代码 清单 11-7 ”stream_read_string_2(): 通用 版 本 的 stream_read_string() 


void stream read_string 2(std::istreamg f, 
std::string& result, 
std::streamoff len = 0) 


{ 
if (len > 0) 
result.reserve(static cast<std::string::size type>(len)); 


result.assign(std::istreambuf_iterator<char>(f.rdbuf()), 
std::istreambuf_iterator<char>()); 


} 


对 stream_read_string_2() 进行 的 性 能 测试 结果 是 在 VS2010 上 耗 时 1566 上 毫秒， 在 
VS2015 上 耗 时 1766 上 毫秒。 在 这 项 测试 中 ， 尽 管 调用 stream_size() 产生 的 额外 的 性 能 
开销 不 是 0， 但 却 没 有 测量 到 。 男 一 方面 ， 与 stream_read_string() 相 比 ，stream_read_ 
string_2() 并 没有 明显 的 性 能 优势 。 这 项 技巧 失败 了 吗 ? 我们 稍 后 再 来 解释 。 


11.1.4 更 大 的 吞吐 量 一 一 使 用 更 大 的 输入 缓冲 区 


C++ 流 包含 一 个 继承 自 std: :streambuf 的 类 ， 用 于 改善 从 操作 系统 底层 以 更 大 块 的 数据 单 
位 读 取 文件 时 的 性 能 。 数 据 会 被 读 取 到 streambuf 的 缓冲 区 中 ， 我 们 可 以 使 用 之 前 讨论 过 
的 基于 迭代 器 的 输入 方法 来 从 中 逐 字 节 地 提取 数据 。 互 联网 上 的 有 些 文章 建议 通过 增 大 输 
入 缓冲 区 的 大 小 来 改善 性 能 。 代 码 清单 11-8 是 一 种 简单 的 实现 方法 。 


代码 清单 11-8 增 大 std: :streambuf 内 部 缓冲 区 的 大 小 
std: :ifstream in8k; 
in8k.open(filename); 
char buf[8192]; 
in8k.rdbuf()->pubsetbuf(buf, sizeof(buf)); 


许多 开发 人 员 在 互联 网 上 抱怨 pubsetbuf() 使 用 起 来 非常 麻烦 。pubsetbuf() 必须 在 打开 流 
后 和 从 流 中 读 取 任意 字符 之 前 被 调用 。 如 果 流 中 有 一 个 状态 位 (如 failbit 或 eofbit) 被 
设置 了 ， 那 么 函数 调用 就 会 失败 。 在 流 关闭 之 前 缓冲 区 必须 一 直 保 持 有 效 。 我 通过 增 大 
std: :streambuf 缓冲 区 的 大 小 对 本 市 中 大 多 数 输入 函数 进行 了 测试 ， 发 现 虽然 性 能 提升 程 
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度 不 大 ， 但 仍 有 20~50 毫秒 的 提升 。 当 缓冲 区 的 大 小 超过 8KB 后 ， 性 能 就 几乎 没有 提升 
了 。 这 个 结果 令 人 相当 失望 ， 因 为 过 去 我 曾经 通过 增 大 C 的 FILE 结构 体 中 类 似 的 缓存 区 
的 大 小 ， 显 著 地 改善 了 我 所 编写 的 代码 的 性 能 。 这 再 次 表明 以 前 的 经 验 会 让 开发 人 员 误 入 
歧途 。 对 于 运行 时 间 是 1500 毫秒 的 测试 结果 ， 这 项 技巧 带 来 了 大 约 5% 的 性 能 提升 ， 但 是 
如 果 能 减少 整体 运行 时 间 ， 那 么 它 就 是 一 个 很 重要 的 因素 。 


11.1.5 更 大 的 吞吐 量 一 一 一 次 读 取 一 行 

在 本 市 的 介绍 中 ， 我 注意 到 要 读 取 的 文件 通常 都 是 文本 文件 。 对 于 一 个 含有 多 行文 字 的 文 
件 ， 我们 有 理由 猜测 使 用 逐 行 读 取 文 件 的 函数 能 够 减少 函数 调用 次 数 ， 最 好 是 在 内 部 使 用 
逐 行 读 取 或 是 填充 缓冲 区 的 接口 。 除 此 之 外 ， 如 果 不 会 频繁 地 更 新 结果 字符 串 ， 那 么 复制 
和 重新 分 配 存 储 空间 的 次 数 也 会 较 少 。 确 实 ， 在 标准 库 中 就 有 一 个 叫 作 getLine() 的 函数 。 
我 们 使 用 代码 清单 11-9 中 的 代码 来 验证 这 个 猜想 。 


代码 清单 11-9 “一 次 读 取 一 行 的 stream_read_getLine() 


void stream read getline(std::istream& f, std::string& result) { 
std::string line; 
result.clear(); 
while (getline(f, line)) 
(result += line) += "\n"; 

























































































} 


stream_read_getline() 会 将 读 取 的 字符 串 添加 到 resutt 中 。result 的 内 容 必 须 在 最 开始 
被 清空 ， 因 为 当 它 被 传递 给 这 个 函数 时 ， 函 数 并 不 要 求 它 里 面 没有 保存 任何 内 容 。clear() 
不 会 将 字符 串 的 动态 缓冲 区 返回 给 内 存 管 理 器 ， 它 只 是 设置 字符 串 的 长 度 为 0。 根 据 在 函 
数 调用 之 前 使 用 这 个 字符 串 参 数 的 情况 ， 可 能 它 已 经 有 一 个 大 块 的 动态 缓冲 区 了 ， 这 样 能 
够 减 小 分 配 存储 空间 的 性 能 开销 。 


对 stream_read_getline() 的 测试 验证 了 这 些 猜 想 : 在 VS2010 上 它 只 耗 时 1284 训 秒 ， 而 
在 VS2015 上 只 耗 时 1440 毫秒 就 完成 了 读 取 有 10 000 行内 容 的 文件 100 次 。 


尽管 result 可 能 碰巧 已 经 足够 长 ， 能 够 避免 重新 分 配 存储 空间 了 ， 但 预先 分 配 足 够 的 存储 
空间 依然 是 一 个 好 主意 。 代 码 清 单 11-10 中 的 函数 是 修改 后 的 stream_read_getLine()， 它 
使 用 了 在 stream_read_string_2() 中 用 到 的 相同 的 技巧 。 


代码 清单 11-10 ”stream_read_getline_2(): 一 次 读 取 一 行 ， 而 且 预 先 为 result 变量 分 配 
了 足够 的 存储 空间 
void stream read _ getline 2(std::ifstream& f, 


std::string& result, 
std: :streamoff Len = 0) 









































std::string line; 
result.clear(); 


if (len > 0) 
result.reserve(static cast<std::string::size type>(len)); 
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while (getline(f, line)) 
(result += line) += "\n"; 


} 
与 stream_read_getline() 相 比 ， 这 项 性 能 优化 努力 只 将 性 能 提高 了 3%。 而 将 其 与 增 大 
streambuf 的 缓存 区 大 小 的 技巧 一 起 使 用 时 ， 性 能 测试 结果 分 别 是 1193 (VS2010) 毫秒 和 
1404 (VS2015) 毫秒 。 


另 一 个 提高 吞吐 量 的 方法 是 使 用 std::streambuf 的 成 员 函 数 sgetn()， 它 能 够 获取 任意 数 
量 的 数据 到 缓冲 区 参数 中 。 对 于 一 个 普通 大 小 的 文件 ， 读 取 整 个 文件 只 需 一 次 函数 调用 。 
代码 清单 11-11 中 的 stream_read_sgetn() 展示 了 这 种 方法 。 


代码 清单 11-11 stream_read_sgetn() 


bool stream read_sgetn(std::istream& f, std::string& result) { 
std::streamoff len = stream _ size(f); 
if (len == -1) 
return false; 


























result.resize (static cast<std::string::size type>(len)); 


f.rdbuf()->sgetn(&result[0], len); 
return true; 


} 


在 stream_read_sgetn() 中 ，sgetn() 会 直接 将 数据 复制 到 result 中 ， 这 要 求 result 足够 
大 才能 存储 下 所 有 数据 。 因 此 必须 在 调用 sgetn() 前 确定 流 的 大 小 。 与 代码 清单 11-7 中 的 
stream_read_string_2() 一 样 ， 这 是 必须 的 。 通 过 调用 stream_size() 可 以 确定 流 的 大 小 。 


正如 之 前 提 到 过 的 ，stream_size() 可 能 会 失败 ， 因 此 最 好 是 将 失败 提示 抛 出 到 stream_ 
read_sgetn() 之 外 。 幸 运 的 是 ， 由 于 这 个 库 国 数 使 用 了 免 复制 惯用 法 〈 请 参见 6.5.4 节 )， 
它 的 返回 值 就 是 成 功 或 失败 的 提示 。 

stream_read_sgetn() 很 高 效 。 它 的 测试 结果 分 别 是 307 毫秒 (VS2010) 和 148 毫秒 
(VS2015)， 比 stream_read_streambuf() 快 了 4 倍 。 如 果 增 大 rdbuf， 那 么 测试 结果 分 别 
缩短 至 244 毫秒 (VS2010) 和 134 毫秒 (VS2015)。 如 果 整 体 时 间 更 短 ， 那 么 原本 增 大 
rdbuf 所 带 来 的 改善 效果 也 会 被 放大 。 


11.1.6 ”再 次 缩短 函数 调用 链 

std: :istrean 提供 了 一 个 read() 成 员 函 数 ， 它 能 够 将 字符 直接 复制 到 缓冲 区 中 。 这 个 
图 数 模仿 了 Linux 上 的 底层 read() 函数 和 Windows 上 的 底层 Readfile() 图 数 。 如 果 
std::istream::read() 直接 连接 到 这 个 底层 功能 ， 绕 过 缓冲 区 和 C+t+ 流 1O 的 其 他 “ 负 
担 ”', 它 应 当 能 够 更 加 高 效 。 而 且 , 如 果 能 够 一 次 读 取 整 个 文件 , 那么 函数 调用 也 会 非常 高 
效 。 代 码 清 单 11-12 实现 了 这 个 功能 。 






























































注 1: 此 处 是 指 策略 (facet)、 行 结束 检测 (line-ending detection) 以 及 许多 虚 函 数 调用 等 。 一 一 译 者 注 
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代码 清单 11-12 stream_read_string() 使 用 read() 读 取 文件 至 字符 串 中 


bool stream_read_string(std: :istream& f, std::string& result) { 
std::streamoff len = stream size(f); 
if (len == -1) 
return false; 


result.resize (static cast<std::string::size type>(len)); 


f.read(&result[0], result.length()); 
return true; 


} 


对 stream_read_string() 的 性 能 测试 结果 分 别 是 267 毫秒 (VS2010) 和 144 毫秒 (VS2015)， 
这 上 比 stream_read_sgetn() 快 了 大 约 25$%， 比 filLe_reader() 快 了 5 倍 。 


stream_read_sgetn() 和 stream_read_string() 都 有 一 个 问题 ， 那 就 是 它们 要 求 指针 &s[9] 
指向 连续 存储 块 。 在 C++11 之 前 ， 尽 管 我 所 知道 的 所 有 标准 库 中 的 字符 串 都 是 连续 地 存储 
字符 ， 但 其 实 C++ 标准 并 没有 这 种 要 求 。C++11 标准 在 21.4.1 节 中 首次 清晰 地 要 求 字符 串 
必须 连续 地 存储 字符 。 


下 面 这 个 函数 首先 动态 地 分 配 字符 数组 ， 然 后 将 数据 读 入 其 中 ， 接 着 使 用 assign() 函数 将 
数据 复制 到 字符 串 中 ， 我 对 它 进 行 了 性 能 测试 。 这 个 函数 对 那些 实现 方法 违反 了 连续 存储 
字符 的 标准 的 新 奇 的 字符 串 也 适用 : 
bool stream_read_array(std: :istream& f, std::string& result) { 
std::streamoff Len = stream size(f); 


if (len == -1) 
return false; 






























































std: :unique_ ptr<char> data(new char[static cast<size t>(len)]); 


f.read(data.get(), static cast<std::streamsize>(len)); 
result.assign(data.get(), static cast<std::string::size type>(len)); 
return true; 


} 


这 个 函数 的 性 能 测试 结果 分 别 是 307 毫秒 (VS2010) 和 186 毫秒 (VS2015)， 只 比 
stream_read_string() 稍 慢 了 一 点 。 


11.1.7 无 用 的 技巧 
我 阅读 过 一 些 非常 复杂 的 技巧 ， 它 们 建议 自己 编写 streambuf 来 改善 性 能 。 代 码 清单 11-13 
是 我 阅读 过 的 这 样 一 段 代 码 。 


代码 清单 11-13 ”不 要 玩 火 自焚 
// 引用 自 :http://stackoverflow.com/questions/8736862 
class custombuf : public std::streambuf 


{ 
public: 
Custombuf(std::string& target): target (target) { 











this->setp(this->buffer_, this->buffer_ + bufsize - 1); 
J 
private: 
std::string& target ; 
enum { bufsize = 8192 }; 
char buffer_[bufsize]; 
int overflow(int c) { 
if (!traits type::eq_int type(c, traits type::eof())) { 
*this->pptr() = traits_type::to_ char_type(c); 
this->pbump(1); 
} 
this->target_.append(this->pbase(), 
this->pptr() - this->pbase()); 
this->setp(this->buffer_, this->buffer_ + bufsize - 1); 
return traits_ type::not eof(c); 


int sync() { this->overflow(traits type::eof()); return 0; } 
并 


std: :string stream_read_custombuf(std: :istream& f) { 
std::string data; 
custombuf sbuf(data); 
std: :ostream(&sbuf) << f.rdbuf() << std::flush; 
return data; 


3 


这 段 示例 代码 的 问题 在 于 它 试图 去 优化 一 种 低 效 算法 。 正 如 之 前 所 观察 到 的 (在 stream_ 
read_streambuf() 中 )， 向 ostream 中 插入 streambuf 的 效率 并 不 是 特别 高 。 这 段 代码 的 性 
能 测试 结果 分 别 是 1312 毫秒 (VS2010) 和 1182 毫秒 (VS2015)， 并 没有 比 stream_read_ 
streambuf() 更 优秀 。 任 何 性 能 改善 效果 可 能 都 是 缘 于 在 自 定义 的 streambuf 中 使 用 了 8KB 
缓冲 区 ， 而 这 其 实 只 用 几 行 代码 就 能 够 实现 。 


11.2” 写 文件 
要 想 测 试 读 取 文件 的 函数 ， 必 须 创 建文 件 。 这 又 可 以 让 我 测试 写 文 件 函 数 。 我 编写 的 第 一 
个 写 文件 的 函数 如 代码 清单 11-14 所 示 。 


代码 清单 11-14 stream write_line() 


void stream write line(std::ostream& f, std::string const& line) { 
f << line << std::endl; 























了 
我 调用 这 个 函数 10 000 次 创建 一 个 文件 ， 然 后 又 循环 100 次 这 段 处 理 来 得 到 可 测量 的 时 
间 。 性 能 测试 结果 分 别 是 1972 毫秒 (VS2010) 和 2110 毫秒 (VS2015 ) 。 
stream_write_line() 每 次 会 写 和 人 人 一行 数 据 ， 并 以 std::endl 结束 。 我 当时 不 知道 endl 会 
刷新 输出 。 如 果 没 有 std: :endL， 那 么 写 文件 应 当 会 快 很 多 ， 因 为 std: :ofstreanm 只 是 将 几 
个 大 数据 块 传递 给 了 操作 系统 。 代 码 清单 11-15 验证 了 我 的 猜想 。 
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代码 清单 11-15 ”stream_write_line_noflush() 更 快 


void stream_write_Line_nofLush(std::ostream& f， 
std::string const& line) 


{ 


ly 


当然 ， 要 么 以 f.fLush() 结束 stream_write_line_noflush()， 要 么 关闭 流 ， 这 样 最 后 一 个 
写 满 数 据 的 缓冲 区 中 的 信息 才 会 被 输出 。stream_write_line_noflush() 的 性 能 测试 结果 分 
别 是 367 毫秒 (VS2010) 和 302 毫秒 (VS2015)， 比 stream_write_Line() 快 了 大 约 5 倍 。 


我 还 对 stream_write_line_noflush() 进行 了 一 项 将 整个 文件 内 容 先 保 存在 一 个 字符 串 中 然 
后 输出 的 性 能 测试 。 果 不 其 然 ， 这 种 方法 的 速度 更 快 。 具 体 的 性 能 测试 结果 分 别 是 132 毫 
秒 (VS2010) 和 137 毫秒 (VS2015)。 这 比 将 文件 内 容 逐 行 写 入 到 文件 中 快 了 1.7 倍 。 


11.3 ”从 std::cin 读 取 和 问 std::cout 中 写 入 


当 从 标准 输入 中 读 取 数据 时 ，std::cin 是 与 std::cout 紧密 联系 在 一 起 的 。 要 求 从 
std::cin 中 输入 会 首先 刷新 std: :cout， 这 样 交 互 控制 台 程序 就 会 显示 出 它们 的 提示 。 
调用 istream: :tie() 可 以 得 到 一 个 指向 捆绑 流 的 指针 ， 前 提 是 该 捆绑 流 存 在 。 调 用 
istrean: :tte(nuLLptr) 会 打破 已 经 存在 的 捆绑 关系 。 正 如 前 一 小 节 中 所 介绍 的 ， 刷 新 操作 
的 开销 非常 昂贵 。 

关于 std::cin 和 std::cout 的 另外 一 件 需要 知道 的 事情 的 是 ，C++ 流 在 概念 上 是 与 C 的 
FILE* 对 象 的 stdin 和 stdout 连接 在 一 起 的 。 这 让 程序 能 够 同时 使 用 C++ 和 C 的 IO 语 
句 ， 并 使 得 输入 或 输出 的 交叉 在 某 种 程度 上 有 了 意义 。std::cout 与 stdout 的 连接 是 实 
现 定义 (implementation-defined) 的 。 多 数 标准 库 实现 默认 都 会 直接 将 std: :cout 发 送 至 
stdout。stdout 默认 是 按 行 缓存 的 ， 在 C++ 的 输入 输出 流 中 没有 这 种 方式 。 每 当 stdout 
遇 到 新 的 一 行 ， 它 都 会 刷新 缓冲 区 。 

切断 连接 有 助 于 改善 性 能 。 调 用 静态 成 员 国 数 std::ios_base::sync_with_stdio(false) 可 
以 打破 这 种 连接 ， 改 善 性 能 ， 但 代价 是 如 果 程 序 同 时 使 用 了 C 和 C++ LO 国 数 ， 那 么 交叉 
行为 将 变 得 不 可 预测 。 
我 没有 测试 打破 连接 后 性 能 差异 有 多 大 。 


11.4 ”小 结 


。 不 论 你 是 在 哪个 网 站 上 看 到 的 ， 互 联网 上 的 “快速 ”文件 IO 代码 不 一 定 快 。 

。 增 大 rdbuf 的 大 小 可 以 让 读 取 文件 的 性 能 提高 几 个 百分点 。 

。 我 测试 到 的 最 快 的 读 取 文 件 的 方法 是 预先 为 字符 串 分 配 与 文件 大 小 相同 的 缓冲 区 ， 然 后 
调用 std: :streambuf: :sgetn() 国 数 填充 字符 串 缓冲 区 。 

。 std::endt 会 刷新 输出 。 如 果 你 并 不 打算 在 控制 台 上 输出 ， 那 么 它 的 开销 是 昂贵 的 。 

。 std::cout 是 与 std: :cin 和 stdout 捆绑 在 一 起 的 。 打 破 这 种 连接 能 够 改善 性 能 。 


f << line << "\n"; 

































































x 
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优化 并 发 


预测 是 困难 的 ， 特 别 是 预测 未 来 。 

一 一 尤 吉 ' 贝 拉 (1925 一 2015)， 棒 球 传奇 人 物 ， 也 是 一 位 不 经 意 间 幽 默 一 下 的 人 
在 成 为 “ 尤 吉 主 义 ” 之 前 ,这 向 俏皮 话 是 在 英语 物理 和 经 济 学 杂志 上 出 现 的 。 
也有 一 种 说 法 是 ， 这 是 一 名 丹麦 谚语 。 但 贝 拉 不 太 可 能 从 这 两 个 出 处 之 一 盗用 
了 这 向 话 。 


包括 最 小 型 的 现代 计算 机 在 内 ， 所 有 的 现代 计算 机 都 能 够 并 发 处 理 多 条 执行 流 。 它 们 有 多 
个 CPU 核心 ， 有 带 有 数 百 个 简单 核心 的 图 形 处 理 器 ， 还 有 音频 处 理 器 、 磁 盘 控 制 器 、 网 
卡 ， 甚 至 带 有 单独 的 计算 能 力 和 内 存 的 键盘 。 无 论 喜 欢 与 否 ， 开 发 人 员 都 得 生活 在 一 个 并 
发 的 世界 中 ， 他 们 必须 理解 如 何 编写 并 发 活动 。 

以 前 ， 并 发 编程 一 直 实 践 在 单 核 处 理 器 上 。 直 到 2005 年 ， 多 核 微 处 理 器 问世 ， 它 们 提供 
了 真正 (并非 时 间 切 割 ) 的 并 发 ， 改 变 了 开发 人 员 的 观念 ， 形 成 了 具有 新 规则 的 最 佳 实 
践 。 即 使 是 对 于 那些 在 单 核 处 理 器 系统 中 经 历 过 并 发 问题 的 开发 人 员 来 说 ， 这 些 规则 可 能 
也 是 陌生 的 。 

如 有 果 未 来 的 处 理 器 发 展 方向 会 让 商业 设备 配置 数 十 甚至 上 百 个 核心 ， 那 么 最 佳 编程 实践 还 
会 继续 改变 。 有 几 种 有 竞争 力 的 工具 预见 到 了 未 来 ， 它 们 提供 了 细 粒 度 并 发 功能 。 不 过 ， 


和 

































































带 有 大 量 核心 的 通用 硬件 尚未 成 为 主流 ， 在 开发 人 员 社区 中 ， 实 践 标准 尚 不 稳固 ， 细 粒度 


并 发 解决 方案 中 的 佼佼 者 尚未 出 现 。 从 某 种 意义 上 说 ， 它 的 未 来 并 不 明确 。 我 不 得 不 非常 
遗憾 地 将 这 个 有 趣 的 主题 留 给 其 他 人 去 讲解 。 

















六 





E1: 是 的 ,是 的 ,我 听 到 了 有 读者 在 说 GPU。 只 有 当 数 百 万 开发 人 员 直接 在 GPU 上 编程 时 ,它们 才 会 成 主流 。 











现在 ， 那 个 时 代 尚 未 到 来 。 
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有 多 种 机 制 能够 为 程序 提供 并 发 ， 其 中 有 些 基 于 操作 系统 或 是 硬件 ， 不 属于 C++ 的 范畴 。 
C++ 代码 的 运行 看 起 来 很 普通 ， 就 像 是 一 个 程序 或 是 一 组 通过 IO 通信 的 程序 。 不 过 ， 这 
些 实现 并 发 的 方法 对 C++ 程序 的 设计 仍然 有 一 定 影响 。 

C++ 标准 库 直 接 支持 线程 共享 内 存 的 并 发 模型 。 许 多 开发 人 员 都 对 他 们 的 操作 系统 的 并 发 
特性 或 是 C 语言 中 的 POSIX 线程 (pthread) 库 更 加 熟悉 。 根 据 我 的 经 验 ， 开 发 人 员 对 于 
C++ 的 并 发 特性 非常 陌生 ， 而 且 在 C++ 编程 中 ， 并 发 也 不 如 其 他 特性 使 用 得 那么 广泛 。 出 
于 这 个 原因 ， 与 本 书 中 的 其 他 C++ 特性 相 比 ， 我 会 就 并 发 特性 进行 更 广泛 的 讨论 。 

C++ 标准 库 对 并 发 的 支持 还 在 制定 过 程 中 。 尽 管 标准 在 提供 并 发 的 基础 概念 和 功能 上 取得 了 
巨大 的 进步 ， 但 是 许多 功能 仍然 在 制定 过 程 中 ， 直 到 C++17 或 是 之 后 的 版 本 才 会 正式 推出 。 
本 章 将 会 讨论 几 个 用 于 改善 基于 线程 的 并 发 程序 的 性 能 的 技巧 。 我 们 假设 读者 已 经 基本 掌 
担 了 线程 级 别 的 并 发 和 同步 原 语 ， 并 正在 寻找 优化 多 线程 程序 的 方法 。 线 程 级 别 的 并 发 的 
基础 知识 并 不 是 本 书 的 主题 。 


12.1 复习 并 发 


并 发 是 多 线程 控制 的 同步 〈 或 近似 同步 ) 执行 。 并 发 的 目标 并 不 是 减少 指令 执行 的 次 
数 或 是 每 秒 访问 数据 的 次 数 。 相 反 ， 它 是 通过 提高 计算 资源 的 使 用 率 来 减少 程序 和 运行 
的 时 间 的 。 
并 发 通过 在 其 他 程序 活动 等 待 事件 发 生 或 是 资源 变 为 可 用 状态 时 ， 人 允许 某 些 程序 活动 向 
前 执行 来 提高 程序 性 能 。 这 样 能 够 增加 计算 资源 的 使 用 时 间 。 并 发 执行 的 程序 活动 越 多 ， 
那么 所 使 用 的 资源 以 及 等 待 事件 发 生 和 资源 变 为 可 用 状态 的 程序 活动 也 越 多 。 如 此 良性 
循环 下 去 ， 计 算 资 源 和 1O 资源 的 总 的 使 用 时 间 将 会 达到 某 个 饱和 度 。 当 然 ， 我 们 希望 
这 个 饱和 度 越 接 近 100% 越 好 。 结 果 就 是 相 比 于 程序 中 每 项 任务 都 在 上 一 项 任务 执行 完 
成 之 后 才 开 始 执行 ， 让 计算 机 在 等 待 事件 发 生 的 过 程 中 处 于 朵 置 状态 ， 减 少 了 程序 整体 
的 运行 时 间 。 

从 性 能 优化 的 角度 看 ， 并 发 的 挑战 是 找到 足够 多 的 独立 任务 来 充分 地 使 用 所 有 可 用 的 计算 
资源 ， 即 使 有 些 任务 必须 等 待 外 部 事件 的 发 生 或 是 资源 变 为 可 用 状态 。 

C++ 为 共享 内 存 的 基于 线程 的 并 发 提供 了 一 个 中 规 中 人 矩 的 库 。 这 绝 不 是 C++ 程序 实现 一 
个 由 才干 协同 工作 的 程序 组 成 的 系统 的 唯一 方式 。 其 他 类 型 的 并 发 库 同 样 对 C++ 程序 有 影 
响 ， 因 此 我 们 也 会 简单 介绍 下 这 些 并 发 库 。 

本 方 将 会 讲解 C++ 内 存 模 型 和 在 多 线程 程序 中 使 用 共享 内 存 技术 的 基本 工具 。 以 我 的 经 
验 ， 这 是 C++ 中 最 难 讲解 的 主题 。 之 所 以 说 它 难以 讲解 ， 是 因为 我 们 人 类 的 大 脑 是 单线 程 
的 ， 每 次 只 能 弄 清 一 种 因果 关系 。 


12.1.1 并 发 概述 


计算 机 硬件 、 操 作 系 统 、 国 数 库 以 及 C++ 自身 的 特性 都 能 够 为 程序 提供 并 发 支持 。 本 节 将 
会 介绍 几 种 并 发 特性 以 及 它们 对 C++ 的 影响 。 
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既 有 C++ 内 置 的 并 发 特性 ， 也 有 通过 库 代 码 或 操作 系统 提供 的 并 发 特性 ， 但 这 并 不 表示 某 
种 并 发 模型 优 于 其 他 模型 。 有 些 特 性 之 所 以 内 置 在 C++ 中 ， 是 因为 它们 需要 被 内 置 ， 没 有 
其 他 方式 能 够 提供 这 种 特性 。 最 著名 的 几 种 并 发 形式 如 下 。 
时 间 分 割 (time slicing) 
这 是 操作 系统 中 的 一 个 调度 函数 。 在 时 间 分 割 中 ， 操 作 系 统 会 维护 一 份 当 前 正在 执行 的 
程序 和 系统 任务 的 列表 ， 并 为 每 个 程序 都 分 配 时 间 块 。 任 何 时候 ， 当 一 个 程序 等 待 事件 
或 是 资源 时 ， 操 作 系 统 会 将 程序 从 可 运行 程序 列表 中 移 除 ， 并 将 它 所 使 用 的 处 理 器 资源 
共享 给 其 他 程序 。 
操作 系统 是 依赖 于 处 理 嚣 和 硬件 的 。 它 会 使 用 计时 器 和 周期 性 的 中 断 来 调整 处 理 器 的 调 
度 。C++ 程序 并 不 知道 它 被 时 间 分 割 了 。 
虚拟 化 (Virtualization) 
一 种 常见 的 虚拟 化 技术 是 让 一 个 称 为 “hypervisor” 的 轻 量 级 操作 系统 将 处 理 器 的 时 
间 块 分 配给 客户 虚拟 机 。 客 户 虚 拟 机 (VM) 包含 一 个 文件 系统 镜像 和 一 个 内 存 镜 
像 ， 通 常 这 都 是 一 个 正在 运行 一 个 或 多 个 程序 的 操作 系统 。 当 hypervisor 运行 客户 虚 
拟 机 后 ， 某 些 处 理 器 指令 和 对 内 存 区 域 的 某 些 访问 会 产生 Trap (陷入 )， 并 将 它 下 传 给 
hypervisor， 这 将 允许 hypervisor 竞争 IO 设备 和 其 他 硬件 资源 。 另 外 一 种 虚拟 化 技术 是 
使 用 传统 操作 系统 作为 客户 虚拟 机 的 主机 。 如 果 主 机 和 客户 虚拟 机 上 运行 的 操作 系统 相 
同 ， 那 么 就 能 够 使 用 操作 系统 的 IO 工具 更 加 高 效 地 竞争 IO 资源 。 
虚拟 化 技术 的 优点 如 下 。 
。 客户 虚拟 机 是 在 运行 时 被 打包 为 磁盘 文件 的 ， 因 此 我 们 能 够 对 客户 虚拟 机 设置 检查 
点 (checkpoint)， 保 存 客户 虚拟 机 ， 加 载 和 继续 执行 客户 虚拟 机 ， 以 及 在 多 台 主 机 
上 运行 客户 虚拟 机 。 
。 只 要 资源 人 允许， 我们 能 够 并 发 地 运行 多 台 客 户 虚 拟 机 。hypervisor 会 与 计算 机 虚拟 内 
存 保护 硬件 共同 协作 ， 隔 离 这 些 客户 虚拟 机 。 这 使 得 硬件 能 够 被 当 作 商品 租借 出 去 
并 计时 收费 。 
。 我 们 能 够 配置 客户 虚拟 机 使 用 主机 的 一 部 分 资源 (物理 内 存 、 处 理 器 核心 )。 计 算 资 
源 能 够 根据 每 台 客 户 虚 拟 机 上 正在 运行 的 程序 的 需求 “量体裁衣 ”， 确 保 并 发 地 在 同 
一 硬件 上 运行 的 多 台 虚 拟 机 保持 性 能 稳定 ， 并 防止 它们 之 间 意 外 地 发 生 交 互 。 
与 传统 的 时 间 分 割 一 样 ，C++ 程序 同样 不 知道 它 运 行 于 hypervisor 下 的 一 台 客 户 虚 拟 机 中 。 
C++ 程序 也 许 会 间接 地 注意 到 它们 所 使 用 的 资源 受到 了 限制 。 虚 拟 化 技术 与 C++ 程序 设计 
是 有 关 的 ， 因 为 它 既 能 够 限制 程序 所 消耗 的 计算 资源 ， 也 需要 让 程序 知道 哪些 资源 才 是 真 
正 可 用 的 。 
容器 化 (containerization) 
容器 化 与 虚拟 化 的 相似 之 处 在 于 ， 容 器 中 也 有 一 个 包含 了 程序 在 检查 点 的 状态 的 文件 系 
统 镜像 和 内 存 镜像 ， 不 同 之 处 在 于 容器 主机 是 一 个 操作 系统 ， 这 样 能 够 直接 地 提供 IO 
和 系统 资源 ， 而 不 必 通 过 hypervisor 去 较 低 效 地 竞争 资源 。 
容器 化 具有 与 虚拟 化 相同 的 优点 (打包 、 配 置 和 隔离 性 ) ， 同 时 它 在 某 种 程度 上 更 
加 高 效 。 
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对 于 运行 于 容器 中 的 C++ 程序 ， 容 器 化 是 不 可 见 的 。 容 器 化 与 C++ 程序 相关 的 原因 与 
虚拟 化 相同 。 


对 称 式 多 处 理 (symmetric multiprocessing) 
对 称 式 多 处 理 器 (symmetric multiprocessor) 是 一 种 包含 若干 执行 相同 机 器 代码 并 访问 
相同 物理 内 存 的 执行 单元 的 计算 机 。 现 代 多 核 处 理 器 都 是 对 称 式 多 处 理 器 。 当 前 正在 执 
行 的 程序 和 系统 任务 能 够 运行 于 任何 可 用 的 执行 单元 上 ， 尽 管 选择 执行 单元 可 能 会 给 性 
能 带 来 影响 。 
对 称 式 多 处 理 器 使 用 真正 的 硬件 并 发 执行 多 线程 控制 。 如 果 对 称 式 多 处 理 器 有 n 个 执行 
单元 ， 那 么 一 个 计算 密集 型 程序 的 执行 时 间 最 多 可 以 被 缩短 为 11n。 稍 后 我 将 会 讲 到 ， 
软件 线程 可 能 会 ， 也 可 能 不 会 运行 于 各 自 的 硬件 线程 之 上 ， 因 此 可 能 会 也 可 能 不 会 减少 
程序 运行 的 总 时 间 ， 而 硬件 线程 则 与 此 形成 了 鲜明 的 对 比 。 

同步 多 线程 (simultaneous multithreading) 
有 些 处 理 器 的 硬件 核心 有 两 个 (或 多 个 ) 寄存 器 集 ， 可 以 相应 地 执行 两 条 或 多 条 指令 
流 。 当 一 条 指令 流 停 顿时 (如 需要 访问 主 内 存 )， 处 理 器 核心 能 够 执行 另外 一 条 指令 流 
上 的 指令 。 具 有 这 种 特性 的 处 理 器 核心 的 行为 就 像 是 有 两 个 (或 多 个 ) 核心 一 样 ， 这 
样 一 个 “四 核 处 理 器 ”就 能 够 真正 地 处 理 八 个 硬件 线程 。 正 如 我 们 将 在 13.3.2 节 中 看 
到 的 ， 这 非常 重要 ， 因 为 最 高 效 地 使 用 软件 线程 的 方法 是 让 软件 线程 数量 与 硬件 线程 
数量 匹配 。 

多 进程 
进程 是 并 发 的 执行 流 ， 这 些 执行 流 有 它们 自己 的 受 保护 的 虚拟 内 存 空间 。 进 程 之 间 通 过 
管道 、 队 列 、 网 络 IO 或 是 其 他 不 共享 的 机 制 * 进 行 通信 。 线 程 使 用 同步 原 语 或 是 通过 
等 待 输入 ( 即 发 生 阻 塞 直至 输入 变 为 可 用 状态 ) 来 进行 同步 。 
进程 的 主要 优点 是 操作 系统 会 隔离 各 个 进程 。 如 果 一 个 进程 月 溃 了 ， 其 他 进程 依然 话 
着 ， 尽 管 它们 可 能 什么 也 不 会 做 。 
进程 最 大 的 缺点 是 它们 有 太 多 的 状态 : 虚 内 存 表 、 多 执行 单元 上 下 文 、 所 有 和 暂停 线程 的 
上 下 文 。 进 程 的 启动 、 停 止 以 及 互相 之 间 的 切换 都 比 线程 慢 。 
C++ 无 法 直接 操作 进程 。 通 第 ， 一 个 C++ 程序 的 表现 形式 就 是 操作 系统 中 的 一 个 进程 。 
C++ 中 没有 任何 工具 能 够 操作 进程 ， 因 为 并 非 所 有 的 操作 系统 都 有 进程 的 概念 。 有 些小 
型 处 理 器 会 为 程序 分 割 时 间 ， 但 不 会 隔离 程序 ， 所 以 这 些 程序 看 起 来 更 像 是 线程 。 

分 布 式 处 理 (distributed processing) 
分 布 式 处 理 是 指 程 序 活动 分 布 于 一 组 处 理 器 上 。 这 些 处 理 器 可 以 不 同 。 相 比 于 处 理 器 的 
处 理 速 度 ， 它 们 之 间 的 通信 速度 非常 慢 。 一 组 通过 TCP/IP 协议 进行 通信 的 云 服 务 器 的 
实例 就 是 一 种 分 布 式 处 理 。 在 一 台 单 独 的 PC 上 也 存在 着 分 布 式 处 理 ， 例 如 将 驱动 器 分 
流 (offload) 给 运行 于 磁盘 驱动 器 和 网 卡 之 上 的 处 理 器 。 另 一 个 例子 是 将 图 形 任务 分 流 
给 图 形 处 理 单元 (GPU) 中 的 多 种 专用 处 理 器 。 传 统 上 ，GPU 都 是 在 显卡 中 的 ， 但 是 












































































































































































































































注 2: 有 些 操作 系统 允许 在 进程 间 共 享 指定 的 内 存 块 。 这 些 在 进程 间 共 享 内 存 的 机 制 非常 神秘 ， 而 且 依 赖 于 
操作 系统 。 本 书 将 不 会 对 这 些 内 容 进 行 讲解 。 
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最 近 几 家 制造 商 将 GPU 集成 到 了 微 处 理 器 上 ， 抓 起 了 一 阵 硅 谷 新 潮流 。 
在 典型 的 分 布 式 处 理 结构 中 ， 数 据 通 过 管道 或 网 络 流 向 进程 ， 进 程 在 对 输入 数据 进行 处 
理 后 再 将 数据 放 入 到 下 一 段 管道 中 。 这 种 模型 与 Unix 的 命令 行 管道 一 样 古 老 ， 使 得 相 
对 重量 级 的 进程 也 能 够 高 效 地 运行 。 管 道中 的 进程 具有 很 长 的 生命 周期 ， 这 样 能 够 避免 
启动 进程 的 开销 。 进 程 能 够 连续 地 对 工作 单元 进行 处 理 ， 因 此 根据 输入 数据 的 情况 ， 它 
们 可 能 会 使 用 整个 分 割 时 间 。 最 重要 的 是 ， 进 程 之 间 不 会 共享 内 存 或 是 同步 ， 因 此 它们 
能 够 全 速 运行 。 
尽管 C++ 中 没有 进程 的 概念 ， 但 C++ 开发 依然 与 分 布 式 处 理 有 关 ， 因 为 它 会 影响 程序 
设计 和 程序 结构 。 共 享 内 存 不 会 超过 几 个 线程 。 有 些 并 发 方案 提倡 完全 放弃 共享 内 存 。 
分 布 式 处 理 系 统 通常 都 会 自然 而 然 地 被 分 解 为 子 系 统 ， 形 成 模块 化 的 、 易 理解 的 和 能 够 
重新 配置 的 体系 结构 。 
线程 
线程 是 进程 中 的 并 发 执行 流 ， 它 们 之 间 共 享 内 存 。 线 程 使 用 同步 原 语 进行 同步 ， 使 用 共 
享 的 内 存 地 址 进行 通信 。 
与 进程 相 比 ， 线 程 的 优点 在 于 消耗 的 资源 更 少 ， 创 建 和 切换 也 更 快 。 
不 过 ， 线 程 也 有 儿 个 缺点 。 由 于 进程 中 的 所 有 线程 都 共享 相同 的 内 存 空间 ， 一 个 线程 写 
入 无 效 的 内 存 地 址 可 能 会 履 盖 掉 其 他 线程 的 数据 结构 ， 导 致 线程 月 溃 或 出 现 不 可 预测 的 
行为 。 此 外 ,访问 共享 内 存 远 比 访问 不 共享 的 内 存 慢 ， 并 且 内 存 中 保存 的 内 容 必 须 在 线 
程 之 间 同 步 ， 否 则 线程 将 会 难以 解释 这 些 内 容 。 
大 多 数 操作 系统 都 有 自己 的 支持 多 线程 的 库 。 一 直到 现在 ， 具 有 丰富 的 并 发 开发 经 验 
的 C++ 开发 人 员 一 直 都 使 用 原生 线程 库 或 是 提供 了 基本 线程 服务 功能 的 跨 平台 解决 方 
案 一 一 POSIX 线程 库 。 
任务 
竺 务 是 在 一 个 独立 线程 的 上 下 文中 能 够 被 异步 调用 的 执行 单元 。 在 基于 任务 的 并 发 中 ， 
任务 和 线程 是 独立 地 和 显 式 地 被 管理 的 ， 这 样 可 以 将 一 个 任务 分 配给 一 个 线程 去 执行 。 
相 比 之 下 ， 在 基于 线程 的 并 发 中 ， 线 程 以 及 在 线程 上 运行 的 可 执行 代码 是 作为 一 个 单元 
被 管理 的 。 
基于 任务 的 并 发 构建 于 线程 之 上 ， 因 此 任务 也 具有 线程 的 优点 和 缺点 。 
基于 任务 的 并 发 的 另外 一 个 优势 是 ， 处 于 活动 状态 的 软件 线程 的 数量 能 够 与 硬件 线程 的 
数量 匹配 起 来 ， 这 样 线程 就 能 运行 得 非常 高 效 。 程 序 能 够 设置 待 执行 任务 的 优先 级 和 队 
列 。 相 比 之 下 ， 在 基于 线程 的 系统 中 ， 操 作 系 统 以 一 种 不 透明 的 和 依赖 于 操作 系统 的 方 
式 设 置 线程 优先 级 。 
任务 的 灵活 性 的 代价 比 应 用 程序 的 复杂 性 更 大 。 程 序 必 须 实 现 对 任务 设置 优先 级 或 是 排 
序 任务 的 方法 。 另 外 ， 程 序 还 必须 管理 任务 运行 的 基础 一 一 线程 池 。 
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12.1.2 ”交叉 执行 


天 文学 家 对 字 宙 的 看 法 非常 有 意思 。 字 宙 中 73% 的 可 见 物质 是 氢气 ，25% 是 氮气 ， 剩 下 
的 2% 是 其 他 气体 。 天 文学 家 能 够 说 出 可 观测 到 的 字 宙 的 大 多 数 特征 ， 比 如 宇宙 几乎 由 氢 
气 和 毛 气 组 成 的 。 那 些 构 成 星球 、 处 理 器 和 人 的 元 素 都 被 称 为 “五 金 "， 念佛 它们 没有 单 
独 的 身份 、 最 好 被 忽略 一 样 。 


并 发 程序 能 够 大 致 被 抽象 为 加 载 (load)、 存 储 (store) 和 分 支 (branch) ， 而 分 支 常常 被 包 
略 了 ， 仿 佛 所 有 编程 的 复杂 性 都 是 不 相关 的 。 关 于 并 发 的 讨论 (包括 本 书 中 的 讨论 ) 常常 
都 是 用 几 句 最 简单 的 赋值 语句 组 成 的 程序 片段 来 讲解 并 发 概念 。 

两 个 线程 的 并 发 执行 的 控制 可 以 被 建 模 为 两 个 线程 的 简单 的 加 载 和 存储 语句 的 交叉 。 如 
果 线 程 1 和 线程 2 各 包含 一 条 语句 ， 那 么 可 能 的 交叉 情况 是 “12” 和 “21”。 如 果 每 个 线 
程 有 两 条 语句 ， 那 么 有 多 种 可 能 的 交叉 情况 :“1122”“1212” “2112”“1221”“2121” 和 
“2211”。 在 实际 的 程序 中 ， 可 能 会 存在 着 大 量 的 交 又 可 能 性 。 


在 单 核 处 理 器 时 代 ， 并 发 是 通过 在 操作 系统 中 进行 时 间 分 割 实 现 的 。 竞 争 条 件 (race 
condition) 相当 稀少 ， 因 为 一 个 线程 在 操作 系统 将 控制 权 交 给 另外 一 个 线程 之 前 会 执行 许 
多 语句 。 例 如 ， 我 曾经 观察 到 的 交叉 是 “1111...11112222.…2222 ”。 


在 如 今 这 个 多 核 处 理 器 时 代 ， 单 独 语句 的 交叉 成 为 了 可 能 ， 这 样 会 更 加 频 紧 地 观察 到 苋 争 
条 件 。 那 些 过 去 在 单 核 处 理 器 上 编写 过 并 发 程序 的 开发 人 员 可 能 仍然 会 对 他 们 的 技巧 有 信 
心 ， 但 实际 上 这 些 技巧 已 经 过 了 “保质 期 ”了 。 


12.1.3 ”顺序 一 致 性 

正如 在 第 2 章 所 指出 的 ，C++ 认为 计算 机 模型 是 简单 和 直观 的 。 这 个 模型 有 一 个 要 求 ， 那 
就 是 程序 具有 顺序 一 致 性 〈sequential consistency)。 也 就 是 说 ， 程 序 表现 得 看 起 来 像 是 语 
名 的 执行 顺序 与 语句 的 编写 顺序 是 一 致 的 ， 遵 守 C++ 流程 控制 语句 的 控制 。 这 个 要 求 看 似 
明确 ， 但 是 在 上 面 这 句 话 中 有 一 个 含糊 其 辞 的 词 “看 起 来 像 是 ”， 这 就 使 得 许多 编译 
器 优化 和 创新 的 微 处 理 器 设计 成 为 可 能 。 

例如 ， 代 码 清单 12-1 中 的 程序 片段 具有 顺序 一 致 性 ， 即 使 在 x 变 为 0 之 前 y 先 被 设置 为 
0， 或 者 y 先 被 设置 为 1 后 x 才 被 设置 为 1， 抑或 是 在 执行 完 if 语句 的 y == 1 的 比较 后 x 
才 被 设置 为 1， 只 要 赋值 语句 x = 1 出 现在 断言 assert(x == 1) 之 前 ， 即 使 用 x 的 值 之 前 。 


代码 清单 12-1 ”顺序 一 致 性 意味 着 “看 起 来 像 是 ” 按 顺序 执行 


int x= 0 y= 0; 

























































































Xx = 1 

y= 1; 

if (y == 1) { 
assert(x == 1); 











读者 可 能 会 问 :“ 为 什么 编译 器 要 对 语句 重新 排序 呢 ? ”事实 上 ， 其 中 有 许多 原因 ， 而 所 
有 这 些 原因 都 与 编译 器 中 生成 最 优 代 码 的 “黑暗 魔法 ”有 关 ， 对 这 些 东 西 我 不 敢 妄 加 评 
论 。 而 且 ， 不 仅 是 编译 器 会 进行 重新 排序 ， 现 代 微 处 理 器 也 会 对 加 载 和 存储 重新 排序 (请 
参见 2.2.8 节 )。 
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编译 器 优化 、 改 变 执 行 顺序 、 高 速 缓存 和 写 缓冲 区 的 综合 影响 可 以 使 用 加 载 和 存储 的 通 
用 隐喻 来 建 模 一 一 摆脱 它们 在 程序 中 的 原本 位 置 ， 将 它们 移动 到 原来 位 置 之 前 或 之 后 。 
这 种 隐喻 会 捕捉 所 有 影响 ， 我 们 不 必 去 解释 或 理解 编译 器 优化 和 某 种 处 理 器 的 硬件 行为 
的 细 市 。 


在 特定 的 编译 器 和 硬件 组 合 中 ， 并 非 所 有 可 能 的 加 载 和 存储 顺序 的 改变 都 会 实际 发 生 。 移 
动 共享 变量 的 加 载 和 存储 会 产生 一 个 最 差 情 况 场景 。 但 是 当 某 种 硬件 架构 具有 三 层 高 速 组 
存 ， 而 且 其 行为 取决 于 每 个 变量 在 哪 一 层 缓存 中 时 ， 要 讨论 清楚 这 种 硬件 架构 是 极其 困难 
的 。 同 时 ， 这 也 是 没有 意义 的 ， 因 为 多 数 程序 在 它们 的 生命 周期 内 都 需要 运行 于 多 种 硬件 
设备 之 上 。 

重要 的 是 ， 当 一 条 使 用 变量 的 语句 被 移动 到 相关 语句 之 前 或 是 之 后 时 ， 只 要 不 是 将 它 移动 
到 更 新 该 变量 的 语 名 之后， 程序 就 仍然 具有 顺序 一 致 性 ， 同 样 ， 在 改变 更 新 变量 的 语句 的 
执行 顺序 时 ， 只 要 不 是 将 它 移动 到 使 用 该 变量 的 语句 之 后 ， 程 序 就 仍然 具有 顺序 一 致 性 。 







































































12.1.4 竞争 
并 发 给 C++ 带 来 了 一 个 问题 一 一 没有 任何 方法 能 够 知道 什么 时 候 两 个 函数 会 并 发 执行 以 及 
哪些 变量 被 共享 了 。 在 一 次 考虑 一 个 函数 时 完全 合理 的 代码 移动 优化 可 能 会 在 两 个 函数 同 
时 运行 时 带 来 问题 。 
如 果 线 程 1 有 一 条 语句 x = 069， 线程 2 有 一 条 语句 x = 109， 那 么 程序 的 结果 取决 于 两 个 线 
程 之 间 的 竞争 。 当 这 两 条 语句 的 并 发 执行 的 结果 取决 于 在 哪个 程序 运行 中 发 生 了 交叉 时 ， 
就 会 发 生 竞争 。 交 叉 “12” 产 生 的 结果 是 x == 100， 而 交叉 “21” 产 生 的 结果 则 是 x == 
这 个 程序 的 结果 以 及 其 他 任何 会 发 生 竞争 的 程序 的 结果 都 是 不 确定 的 ， 即 不 可 预测 的 。 
在 C++ 的 标准 内 存 模型 中 ， 只 要 程序 中 不 会 发 生 竞 争 ， 那 么 它 的 行为 看 起 来 像 是 具有 顺序 
一 致 性 ， 如 果 程 序 中 会 发 生 竞 争 ， 就 可 能 会 违背 顺序 一 致 性 。 
代码 清单 12-2 是 代码 清单 12-1 的 一 个 多 线程 版 本 。 在 这 个 版 本 的 代码 中 ， 我 给 变量 赋予 
了 更 加 有 意义 的 名 字 。 
代码 清单 12-2 多 线程 的 顺序 一 致 性 
// 线程 1 运行 于 核心 1 上 
shared_result x = 1; 
shared flag y= 1; 
























































一 














// 线程 2 运行 于 核心 2 上 
while (shared_flag_y != 1) 
/* 繁忙 等 待 shared_flag_y 被 设置 为 1 */; 

assert(shared_result x == 1); 
shared_result_x 的 值 是 在 线程 1 中 计算 出 来 的 ， 它 会 在 线程 2 中 使 用 。shared_fLag_y 是 
在 线程 1 中 设置 的 标识 位 ， 它 会 告诉 线程 2 是 否 可 以 使 用 shared_result_x 的 值 。 如 果 编 
译 器 或 处 理 器 改变 了 线程 1 中 的 两 条 语句 的 顺序 ， 导 致 shared_flag_y 在 shared_result_ 
x 被 赋值 之 前 先 被 设置 为 了 1， 那 么 线程 2 可 能 (但 不 一 定 ) 会 在 看 到 shared_flag_y 的 值 
发 生 了 改变 后 退出 while 循环 ， 并 返回 错误 ， 因 为 它 看 到 的 shared_result_x 的 值 仍然 是 
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以 前 的 值 。 每 个 线程 都 是 顺序 一 致 的 ， 但 两 个 线程 的 交互 是 一 种 竞争 。 
只 有 那些 在 定义 中 不 存在 “看 起 来 像 是 ”这 样 含糊 的 字眼 的 编程 语言 ， 才 能 够 确保 在 线程 
之 间 被 共享 的 变量 的 顺序 一 致 性 。 甚 他 编程 语言 支持 这 一 点 ， 因 为 共享 变量 是 显 式 地 被 声 
明 的 ， 编 译 器 不 会 改变 它们 的 位 置 ， 并 会 生成 特别 的 代码 来 确保 硬件 也 不 会 改变 它们 的 位 
置 。 并 发 的 C++ 程序 必须 显 式 地 强制 进行 特定 的 交叉 以 保证 顺序 一 致 性 。 





















































12.1.5 同步 


同步 是 多 线程 中 语句 交互 的 强制 顺序 。 同 步 允 许 开发 人 员 讨 论 多 线程 程序 语句 的 执行 顺 
序 。 没 有 同步 ， 语 句 执行 的 顺序 是 不 可 预测 的 ， 线 程 之 间 的 协同 工作 将 会 变 得 非常 困难 


同步 原 语 是 一 种 编程 结构 ， 其 目的 是 通过 强制 并 发 程序 的 交叉 来 实现 同步 。 所 有 的 同步 原 
语 的 工作 原理 都 是 让 一 个 线程 等 待 另外 一 个 线程 或 是 挂 起 线程 。 通 过 强制 指定 特定 的 执行 
顺序 ， 同 步 原 语 避 免 了 苋 争 的 发 生 。 


在 过 去 50 年 的 编程 中 已 经 提出 和 实现 了 各 种 同步 原 语 。 微 软 的 Windows 具有 丰富 的 同 
步 原 语 集 ， 包 括 可 以 挂 起 线程 的 事件 (event) 、 两 种 互 斥 量 (mutex)、 一 种 非常 通用 的 
信号 量 (semaphore) 和 Unix 风格 的 信号 (signal)。Linux 也 有 它 自己 的 丰富 但 独特 的 同 
步 原 语 。 

理解 同步 原 语 只 是 一 种 概念 上 的 存在 非常 重要 。 没 有 权威 的 专家 能 准确 地 说 出 信号 量 是 什 
么 或 是 应 当 如 何 实现 一 个 监控 器 (monitor)。Windows 对 信号 量 的 描述 与 Dijkstra 的 原始 
描述 大 不 相同 。 而 且 ， 所 有 那些 被 提出 的 同步 原 语 都 能 够 从 原 语 碎 片 丰 富 的 原 语 集合 中 合 
成 出 来 ， 就 如 同 所 有 的 布尔 函数 都 能 从 硬件 与 非 门 和 或 非 门 合并 出 来 一 样 。 因 此 ， 同 样 的 
同步 原 语 在 不 同 的 操作 系统 上 会 有 不 同 的 实现 。 

经 典 的 同步 原 语 会 与 操作 系统 进行 交互 ， 切 换 线程 的 活动 状态 和 挂 起 状态 。 这 种 实现 适合 
于 那 种 只 有 一 个 相对 较 慢 的 执行 单元 的 计算 机 。 不 过 ， 通 过 操作 系统 启动 和 停止 线程 的 延 
迟 会 非常 明显 。 如 果 计 算 机 中 有 多 个 处 理 器 以 一 种 真正 的 并 发 方式 执行 多 个 指令 流 ， 通 过 
在 共享 变量 上 采用 繁忙 等 待 (Busy-Waiting) 策略 进行 同步 可 以 大 幅 缩 短 等 待 时 间 。 设 计 
人 员 也 可 能 会 采用 混合 方式 实现 同步 库 。 


12.1.6 原子 性 

如 果 没 有 线程 能 够 在 另外 一 个 线程 对 共享 变量 计算 到 一 半 的 时 候 看 到 该 变量 被 更 新 了 ， 
那么 在 共享 变量 (特别 是 具有 多 个 成 员 变量 的 类 实例 ) 上 执行 的 这 个 操作 就 具有 原子 性 
(atomicity)。 如 果 更 新 操作 不 具有 原子 性 ， 那 么 在 两 个 线程 的 代码 交互 时 ， 可 能 会 发 生 
以 下 情况 : 一 个 线程 在 另 一 个 线程 对 共享 变量 的 更 新 操作 结束 前 ， 就 去 访问 这 个 正在 被 
更 新 的 、 不 具有 一 致 性 的 变量 。 换 一 种 方式 看 ， 原 子 性 确保 不 会 发 生 这 些 我 们 不 希望 看 
到 的 交互 。 





























































































































注 3: Edsger W. Dijkstra,《 协 作 顺 序 进程 》(http:/www.cs.utexas.edu/users/EWD/transcriptions/EWDO01xx/EWD123. 
html) ，Edsger W. Dijkstra 档案 ， 德 克 萨 斯 大 学 奥 斯 洒 分 校 美 国 历 史 中 心 (1965 年 9 月 )。 
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1. 互 斥 实现 原子 性 

传统 上 ， 原 子 性 是 通过 互 斥 实现 的 。 每 个 线程 在 访问 共享 变量 前 都 必须 获得 一 个 互 斥 量 
(mutex) ， 并 在 完成 操作 后 释放 这 个 互 斥 量 。 获 取 和 释放 互 斥 量 之 间 的 程序 部 分 被 称 为 临 
界 区 (critical section) 。 如 果 一 个 线程 得 到 了 互 斥 量 ， 那 么 其 他 所 有 线程 在 试图 获得 互 斥 量 
时 都 会 被 挂 起 。 因 此 ， 在 一 个 时 间 点 只 有 一 个 线程 能 够 对 共享 数据 进行 操作 。 我 们 称 这 个 
线程 持 有 互 斥 量 。 互 斥 量 会 序列 化 线程 ， 让 它们 一 个 接 一 个 地 访问 临界 区 。 


加 载 和 存储 共享 变量 必须 在 同时 只 有 一 个 线程 能 够 访问 的 临界 区 中 进行 ， 否 则 就 会 发 生 竞 
和 争 ， 导 致 出 现 不 可 预测 的 结果 。 不 过 正如 在 12.1.3 节 中 所 提 到 的 ， 编 译 器 和 处 理 器 都 会 移 
动 加 载 语句 和 存储 语句 。 有 一 种 称 为 内 存 栅栏 (memory fence) 的 机 制 可 以 防止 共享 变量 
的 加 载 和 存储 泄漏 至 临界 区 外 。 在 处 理 器 中 ， 有 些 特殊 的 指令 可 以 告诉 处 理 器 不 要 移动 加 
载 语句 和 存储 语句 穿越 内 存 栅 栏 。 在 编译 器 中 ， 内 存 栅栏 是 概念 上 的 。 优 化 器 不 会 跨越 函 
数 调用 移动 加 载 语句 和 存储 语句 ， 因 为 在 任何 函数 调用 中 都 可 能 存在 临界 区 。 


位 于 临界 区 顶部 的 内 存 栅栏 必须 防止 共享 变量 的 加 载 被 泄漏 至 临界 区 外 。 我 们 称 这 个 内 存 
栅栏 具有 获得 语义 (acquire semantics) ， 因 为 它 在 线程 获得 互 斥 量 时 才 存 在 。 类 似 地 ， 位 
于 临界 区 底部 的 内 存 栅 栏 必 须 防 止 共享 变量 的 存储 被 泄漏 至 临界 区 外 。 我 们 称 这 个 内 存 栅 
栏 具有 释放 语义 (release semantics) ， 因 为 它 在 线程 释放 互 斥 量 时 才 存 在 。 


在 只 有 单 核 处 理 器 的 日 子 里 是 不 需要 内 存 栅 栏 的。 编译 器 不 会 跨越 函数 调用 对 加 载 语句 和 
存储 语句 重新 排序 ， 操 作 系统 在 切换 线程 时 只 会 在 偶然 的 情况 下 同步 内 存 。 但 是 进入 多 核 
时 代 后 ， 程 序 员 必 须 应 对 这 个 新 问题 。 使 用 C++ 标准 库 提 供 的 同步 原 语 或 是 操作 系统 的 原 
生 同 步 库 的 开发 人 员 无 需 担 心 内 存 栅栏 ， 但 是 自己 实现 同步 原 语 或 是 无 锁 数据 结构 的 程序 
员 则 必须 保持 警惕 。 


2. 原子 性 硬件 操作 
通过 互 斥 实现 的 原子 性 会 带 来 性 能 开销 ， 使 得 开发 人 员 在 使 用 它 时 会 遇 到 麻烦 。 


。 由 于 只 有 一 个 线程 能 够 拥有 互 斥 量 ， 共 享 变量 上 的 操作 无 法 并 发 执行 。 在 临界 区 中 消耗 
的 时 间 越 多 ， 临 界 区 从 并 发 执行 中 夺 走 的 时 间 也 就 越 多 ， 在 共享 变量 上 执行 操作 的 线程 
越 多 ， 临 界 区 从 并 发 执行 中 夺 走 的 时 间 也 就 越 多 。 

。 当 一 个 线程 释放 互 斥 量 时 ， 在 该 互 矿 量 上 挂 起 的 线程 就 能 够 获得 它 。 但 是 当 有 多 个 线程 
被 挂 起 时 ， 是 无 法 确保 其 中 哪个 线程 一 定 能 够 获得 互 斥 量 的 ， 因 为 提供 这 样 一 种 保证 的 
性 能 开销 非常 昂贵 。 如 果 许 多 线程 都 挂 起 了 ， 有 些 线程 可 能 永远 无 法 得 到 互 斥 量 ， 这 些 
线程 上 的 计算 无 法 继续 向 前 进行 。 这 种 情况 被 称 为 资源 饥 俄 。 

。 如 果 一 个 线程 已 经 获得 了 一 个 互 斥 量 ， 然 后 需要 获取 第 二 个 互 斥 量 ， 那 么 当 另外 一 个 线 
程 已 经 获得 了 第 二 个 互 斥 量 并 需要 获取 第 一 个 互 斥 量 时 ， 就 会 发 生 线 程 永远 无 法 继续 往 
下 执行 的 情况 。 我 们 称 这 种 情况 为 死 锁 (deadlock)， 或 是 一 个 更 加 优雅 的 名 字 一 一 死 
亡 拥 抱 (deadly embrace)。 一 个 线程 试图 两 次 锁 住 互 斥 量 时 会 使 自己 死 锁 。 当 多 个 线程 
的 互 斥 量 之 间 形 成 了 循环 依赖 关系 时 ， 这 些 线程 都 会 被 死 锁 。 尽 管 我 们 有 避免 死 锁 的 策 
略 ， 但 是 却 无 法 确保 程序 试图 去 获取 多 个 互 斥 量 时 不 会 被 死 锁 。 


对 于 整数 和 指针 这 样 的 简单 类 型 变量 ， 在 某 些 计算 机 上 执行 的 某 些 操作 是 具有 原子 性 的 ， 
因为 这 些 操作 是 都 通过 一 条 单独 的 机 器 指令 执行 的 。 这 些 特 殊 的 原子 性 指令 带 有 内 存 机 
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栏 ， 能 够 确保 指令 在 执行 过 程 中 不 会 被 其 他 的 指令 中 断 。 

原子 性 指令 形成 了 实现 互 斥 量 和 其 他 同步 原 语 的 基础 。 我 们 只 使 用 硬件 的 原子 性 操作 
就 可 以 实现 巧妙 得 令 人 赞叹 的 线程 安全 的 数据 结构 。 我 们 称 其 为 无 锁 编程 〈lock-free 
programming) ， 因 为 以 这 种 方式 工作 的 代码 无 须 等 待 获取 互 斥 量 。 


无 锁 程序 可 以 增加 并 发 线程 的 数量 ， 但 是 它们 并 非 万 灵 药 。 原 子 操作 仍然 会 序列 化 线程 ， 
哪怕 这 些 操 作 只 执行 一 条 指令 。 不 过 ， 即 使 是 与 最 高 效 的 互 斥 量 相 比 ， 无 锁 程 序 也 能 够 将 
临界 区 的 持续 时 间 缩 短 一 个 数量 级 。 


12.2 复习 C++ 并 发 方式 


直到 C++14， 与 操作 系统 提供 的 丰富 的 并 发 方式 相 比 ，C++ 标准 库 对 并 发 的 支持 依然 显得 
有 些 简陋 。 一 个 原因 是 C++ 中 的 并 发 方式 必须 支持 所 有 操作 系统 ， 另 一 个 原因 则 是 C++ 
的 并 发 仍然 在 发 展 中 ， 按 照 计划 在 C++17 中 ， 对 并 发 的 支持 会 突飞猛进 。 与 调用 操作 系统 
的 原生 并 发 方式 相 比 ， 使 用 C++ 并 发 特性 的 优势 在 于 C++ 的 并 发 方式 在 不 同 的 平台 上 其 
有 一 致 性 。 

C++ 标准 库 的 并 发 机 制 就 像 是 把 一 组 积木 组 装 在 一 起 一 样 ， 通 过 操作 系统 的 C 风格 的 线程 
库 组 装 出 完全 C++ 风格 的 、 能 够 传递 可 变 参数 列表 、 返 回 值 、 抛 出 异常 和 存储 在 容器 中 的 
线程 解决 方案 。 


12.2.1 ”线程 


<thread> 头 文件 提供 了 std::thread 模板 类 ， 它 允许 程序 创建 线程 对 象 作为 操作 系统 自 
身 的 线程 工具 的 包装 器 。std: :thread 的 构造 函数 接收 一 个 可 调用 对 象 (函数 指针 、 函 数 
对 象 、lambda 或 是 绑 定 表达 式 ) 作为 参数 ， 并 会 在 新 的 软件 线程 上 下 文中 执行 这 个 对 象 。 
C++ 使 用 可 变 模板 参数 转发 “魔法 ”调用 带 有 可 变 参 数列 表 的 函数 ， 而 底层 操作 系统 的 线 
程 调用 通常 接收 一 个 指向 带 有 void* 参数 的 void 函数 的 指针 作为 参数 。 


std: :thread 是 一 个 用 于 管理 操作 系统 线程 的 RAI (资源 获取 即 初始 化 ) 类 。 它 有 一 个 返 
回 操作 系统 原生 线程 处 理 句柄 的 get() 成 员 函 数 ， 程 序 可 以 使 用 该 处 理 句柄 访问 操作 系统 
中 更 丰富 的 作用 于 线程 上 的 函数 集合 。 
代码 清单 12-3 是 std: :thread 用 法 的 一 个 简单 示例 。 


代码 清单 12-3 ”启动 儿 个 简单 的 线程 
void fi(int n) { 
std::cout << "thread " << n << std::endl; 
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} 

void thread_ example() { 
std: :thread t1; // 线程 变量 ,不 是 一 个 线程 
t1 = std::thread(f1，1); // 将 一 个 线程 赋值 给 线程 变量 
t1.join(); // 等 待 线程 结束 


std: :thread t2(f1, 2); 
std: :thread t3(std::move(t2)); 
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std::thread t4([]() { return; });// 也 可 以 与 Lambda 表 达 式 配合 使 用 
t4.detach(); 
t3.join(); 








} 


线程 tl 会 被 初始 化 为 一 个 空 线程 。 由 于 每 个 线程 都 有 一 个 唯一 的 指向 底层 资源 的 句柄 ， 
因此 线程 无 法 被 复制 ， 但 是 我 们 能 够 使 用 移动 赋值 运算 符 将 一 个 右 值 赋值 给 空 线程 。t1 可 
以 拥有 任何 一 个 执行 接收 一 个 整数 参数 的 函数 的 线程 。std: :thread 的 构造 函数 接收 一 个 
指向 fl 的 函数 指针 和 一 个 整数 作为 参数 。 第 二 个 参数 会 被 转发 给 在 std: :thread 的 构造 函 
数 中 启动 的 可 调用 对 和 象 (f1)。 


线程 t2 是 用 同一 个 函数 但 是 不 同 参数 启动 的 。 线 程 t3 是 一 个 移动 构造 函数 的 示例 。 在 被 
移动 构造 后 ，t3 运行 的 是 作为 t2 启动 的 线程 ，t2 变 为 了 空 线程 。 线 程 t4 展示 了 如 何 使 用 
lambda 表达 式 作为 线程 的 可 调用 对 象 启动 线程 。 


std::thread 代表 的 操作 系统 线程 必须 在 std: :thread 被 销毁 之 前 被 销毁 掉 。 我 们 可 以 像 
t3.join() 这 样 加 入 线程 ， 这 表示 当前 线程 会 等 待 被 加 入 的 线程 执行 完毕 。 我 们 可 以 像 
t4.detach() 这 样 将 操作 系统 线程 从 std: :thread 对 象 中 分 离 出 来 。 在 这 种 情况 下 ， 线 程 会 
继续 执行 ， 但 对 启动 它 的 线程 来 说 变 成 了 不 可 见 的 。 当 被 分 离线 程 的 可 调用 对 象 返回 时 它 
就 会 结束 。 如 果 可 调用 对 象 不 会 返回 ， 那 么 就 会 发 生 资 源 泄 露 ， 被 分 离 的 线程 会 继续 消耗 
资源 ， 直 到 整个 程序 结束 。 如 果 在 std: :thread 被 销毁 前 既 没有 调用 过 join() 也 没有 调用 
过 detach()， 它 的 析 构 函数 会 调用 terminate()， 整 个 程序 会 突然 停止 。 
尽管 我 们 能 够 直接 使 用 std: :thread， 但 是 使 用 基于 它 编 写 出 更 加 优秀 的 工具 的 话 ， 可 
能 有 助 于 提高 生产 率 。 国 数 对 象 返回 的 任何 值 都 会 被 忽略 。 国 数 对 象 抛 出 的 异常 会 导致 
terminate() 被 调用 ， 使 程序 无 条 件 地 突然 停止 。 这 些 限制 让 对 std: :thread 的 调用 变 得 非 
常 脆弱， 就 像 是 标准 的 制定 人 员 不 希望 开发 人 员 使 用 它 一 样 。 

























































































12.2.2 ”promtse 和 future 


C++ 中 的 std: :promise 模板 类 和 std: :future 分 别 是 一 个 线程 向 另外 一 个 线程 发 送 和 接收 
消息 的 模板 类 。promise 和 future 允许 线程 异步 地 计算 值 和 抛 出 异常 。promise 和 future 
共享 一 个 称 为 共享 状态 (shared state) 的 动态 分 配 内 存 的 变量 ， 这 个 变量 能 够 保存 一 个 已 
定义 类 型 的 值 ， 或 是 在 标准 包装 器 中 封装 的 任意 类 型 的 异常 。 一 个 执行 线程 能 够 在 future 
上 被 挂 起 ， 因 此 future 也 扮演 着 同步 设备 的 角色 。 

我 们 可 以 使 用 promise 和 future 简单 地 实现 异步 函数 调用 和 返回 。 不 过 ，promise 和 
future 的 用 途 远 比 这 广泛 。 它 们 可 以 实现 一 幅 动态 改变 线程 之 间 的 通信 点 的 图 。 但 是 反 过 
来 说 ， 它 们 不 提供 任何 结构 化 机 制 ， 因 此 完全 自由 的 通信 图 可 能 会 难以 调试 。 

C++ <future> 头 文件 中 包含 promise 和 future 的 功能 。std: :promise 模板 的 实例 允许 线程 
将 共享 状态 设置 为 一 个 指定 类 型 的 值 或 是 一 个 异常 。 发 送 线程 并 不 会 等 待 共享 状态 变 为 可 
读 状 态 ， 它 能 够 立即 继续 执行 。 
promise 的 共享 状态 直到 被 设置 为 一 个 值 或 是 一 个 异常 后 才 就 绪 。 共 享 状 态 必 须 且 只 能 被 
设置 一 次 ， 否 则 会 发 生 以 下 情况 。 
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。 如 果 某 个 线程 多 次 试图 将 共享 状态 设置 为 一 个 值 或 是 一 个 异常 ， 那 么 共享 状态 将 会 被 设 
置 为 std::future_error 异常 ， 错 误 代 码 是 promise_already_satisfied， 而 且 共 享 状 态 
变 为 就 绪 状 态 ， 为 释放 所 有 在 promise 上 等 待 的 future 做 好 准备 。 

。 如 有 果 某 个 线程 从 来 没有 将 共享 状态 设置 为 一 个 值 或 是 一 个 异常 ， 那 么 在 promise 被 销毁 
时 ， 它 的 析 构 国 数 会 将 共享 状态 设置 为 std: :future_error 异常 ， 错 误 代 码 是 broken_ 
promise, 而 且 共 享 状态 变 为 就 绪 状 态 ,为 释放 所 有 在 promise 上 等 待 的 future 做 好 准备 。 
要 想 获得 这 个 有 用 的 错误 提示 ， 我 们 必须 在 线程 的 可 调用 对 象 中 销毁 promise。 


std: :future 允许 线程 接收 保存 在 promise 的 共享 状态 中 的 值 或 是 异常 。future 是 一 个 同步 
原 语 ， 接 收 线程 会 在 对 future 的 get() 成 员 函 数 的 调用 中 挂 起 ， 直 到 相应 的 promise 设置 
了 共享 状态 的 值 或 是 异常 ， 变 为 就 绪 状 态 为 止 。 

在 被 构造 出 来 或 是 通过 promise 赋值 后 ，future 才 是 有 效 的 。 在 future 无 效 时 ， 接 收 线程 
是 无 法 在 future 上 挂 起 的 。future 必须 在 发 送 线程 被 执行 之 前 通过 promise 构造 出 来 。 否 
则 ， 接 收 线程 会 试图 在 future 变 为 有 效 之 前 在 它 上 面 挂 起 。 


promise 和 future 无 法 被 复制 。 它 们 是 代表 特定 通信 和 集结 点 的 实体 。 我 们 能 构造 和 移动 构 
造 它们 ， 可 以 将 一 个 promise 赋值 给 一 个 future。 理 想 情况 下 ，promise 是 在 发 送 线程 中 
被 创建 的 ， 而 future 则 是 在 接收 线程 中 被 创建 的 。 有 一 种 编程 惯用 法 是 在 发 送 线程 中 创建 
promise， 然 后 使 用 std: :move(promise) 将 其 作为 右 值 引 用 传递 给 接收 线程 ， 这 样 它 的 内 
容 就 会 被 移动 到 属于 接收 线程 的 promise 中 。 开 发 人 员 可 以 使 用 std: :async() 来 做 到 这 一 
点 。 我 们 也 可 以 通过 指向 发 送 线程 的 引用 来 传递 promise。 代 码 清单 12-4 展示 了 如 何 使 用 
promise 和 future 来 控制 线程 交互 。 


代码 清单 12-4 ”promise、future 和 线程 


void promise future example() { 
auto meaning = [](std::promise<int>& prom) { 
prom.set_value(42); // 计算 "meaning of life" 













































































}; 


std: :promise<int> prom; 
std::thread(meaning, std::ref(prom)).detach(); 


std: :future<int> resuLt = prom.get future(); 
std::cout << "the meaning of life: " << result.get() << "\n"; 


} 


在 代码 清单 12-4 中 ，promise 的 prom 在 std::thread 被 调用 之 前 被 创建 出 来 了 。 这 种 写 
法 并 不 完美 ， 因 此 它 没 有 考虑 broken_promise 的 情况 。 尽 管 如 此 ， 但 这 是 有 必要 的 ， 因 
为 如 果 没 有 在 线程 开始 之 前 构造 出 prom， 就 无 法 确保 在 调用 result.get() 之 前 future 的 
result 是 有 效 的 。 

程序 接着 构造 出 一 个 匿名 std: :thread。 它 有 两 个 参数 ， 一 个 是 lambda 表达 式 meaning， 它 
是 待 执行 的 可 调用 对 象 ， 另 一 个 是 promise 类 型 的 变量 prom， 它 是 传 给 meaning 使 用 的 参 
数 。 请 注意 ， 由 于 pron 是 一 个 引用 参数 ， 因 此 必须 将 其 包装 在 std: :ref() 中 才能 使 参数 转 
发 正常 工作 。 调 用 detach() 函数 会 从 被 销毁 的 匿名 std: :thread 中 分 离 出 正在 运行 的 线程 。 
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现在 正在 发 生 两 件 事情 : 一 件 是 操作 系统 正在 为 执行 meaning 做 准备 ， 另 一 件 是 程 
序 正在 创建 future 类 型 的 result。 程 序 可 能 会 在 线程 开始 运行 之 前 执行 prom.get_ 
future()。 这 就 是 在 构造 出 线程 之 前 先 创 建 pronm 的 原因 一 一 这 样 future 是 有 效 的 ， 程 
序 会 挂 起 等 待 线 程 。 


程序 会 在 result.get() 中 挂 起 ， 等 待 线 程 设置 pron 的 共享 状态 。 线 程 调用 prom.set_ 
value(42)， 让 共享 状态 就 绪 并 释放 程序 。 程 序 在 输出 ”the meaning of life:42” 后 结束 。 


future 中 并 没有 什么 神秘 的 地 方 。 如 果 设 计 人 员 想 设计 一 个 先 返 回 整 数值 然后 返回 字符 串 
的 线程 ， 可 以 创建 两 个 promise， 然 后 在 接收 程序 创建 两 个 对 应 的 future。 


使 future 变 为 就 绪 状 态 释放 了 一 个 信号 ， 表 明 计 算 完 成 了 。 由 于 程序 会 在 future 上 挂 
起 ， 因 此 无 需 在 线程 终止 上 挂 起 。 这 对 于 在 12.2.3 节 中 讨论 的 std: :async() 和 在 12.3.3 
节 中 讨论 的 线程 池 非 常 重要 ， 因 为 相 比 于 销毁 然后 重新 创建 线程 ， 这 种 方法 在 重用 线程 上 
更 加 高 效 。 


12.2.3 ”异步 任务 


C++ 标准 库 任务 模板 类 在 try 语句 块 中 封装 了 一 个 可 调用 对 象 ， 并 将 返回 值 或 是 抛 出 的 异 
常 保存 在 promise 中 。 任 务 允 许 线 程 异步 地 调用 可 调用 对 象 。 


C++ 标准 库 中 的 基于 任务 的 并 发 只 是 一 个 半成品 。C++11 提供 了 将 可 调用 对 象 包装 为 任 
务 ， 并 在 可 复 用 的 线程 上 调用 它 的 async() 模板 函数 。async() 有 点 像 “ 上 帝 函 数 ”( 请 参 
见 8.3.10 节 )， 它 隐藏 了 线程 池 和 任务 队列 的 许多 细节。 


在 C++ 标准 库 <future> 头 文件 中 定义 了 任务 。std: :packaged_task 模板 类 能 够 包装 任意 
的 可 调用 对 象 ( 可 以 是 函数 指针 、 函 数 对 象 、lambda 表达 式 或 是 绑 定 表达 式 ) ， 使 其 能 够 
被 异步 调用 。packaged_task 自身 也 是 一 个 可 调用 对 象 ， 它 可 以 作为 可 调用 对 象 参 数 传递 
给 std::thread。 与 其 他 可 调用 对 象 相 比 ， 任 务 的 最 大 优点 是 一 个 任务 能 够 在 不 突然 终止 
程序 的 情况 下 抛 出 异常 或 返回 值 。 任 务 的 返回 值 或 抛 出 的 异常 会 被 存储 在 一 个 可 以 通过 
std: :future 对 象 访问 的 共享 状态 中 。 


代码 清单 12-5 是 代码 清单 12-4 的 使 用 了 packaged_task 的 简化 版 本 。 


代码 清单 12-5 ”packaged_task 和 线程 


void promise future example 2() { 
auto meaning = std::packaged_ task<int(int)>( 
[J](int n) { return n; }); 
meaning.get_future(); 



























































































































































auto result 


auto 七 std::thread(std: :move(meaning), 42); 
std::cout << "the meaning of life: " << result.get() << "\n"; 
t.join(); 


} 
packaged_task 类 型 的 变量 meaning 包含 一 个 可 调用 对 象 和 一 个 std: :promise。 这 解决 了 在 
线程 的 上 下 文中 调用 promise 的 析 构 函数 的 问题 。 请 注意 meaning 中 的 lambda 表达 式 只 是 
简单 的 返回 参数 ， 设 定 promise 的 部 分 被 优雅 地 隐藏 起 来 了 。 
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在 本 例 中 ， 程 序 加 入 (join) 了 线程 ， 而 不 是 分 离 (detach) 它 。 尽 管 在 这 个 例子 中 并 没有 
体现 得 特别 明显 ， 但 是 在 主 程序 得 到 future 的 值 后 ， 主 程序 和 线程 都 能 继续 并 发 地 执行 。 


<async> 库 提供 了 一 个 基于 任务 的 工具 std::async()。 模 板 国 数 std::async() 执行 
一 个 可 调用 对 象 参数 ， 这 个 可 调用 参数 可 能 是 在 新 线程 的 上 下 文中 被 执行 的 。 不 过 ， 
std::async() 返回 的 是 一 个 std::future， 它 既 能 够 保存 一 个 返回 值 ， 也 能 够 保存 可 调 
用 对 象 抛 出 的 异常 。 而 且 ， 有 些 实现 方式 可 能 会 为 了 改善 性 能 而 选择 在 线程 地 外 部 分 配 
std: :async() 线程 。 代 码 清单 12-6 展示 了 std: :async() 的 用 法 。 


代码 清单 12-6 ”任务 和 async() 


void promise_future_exampLe_3() { 
auto meaning = [](Cint n) { return n; }; 
auto result = std::async(std::move(meaning), 42); 
std::cout << "the meaning of life: " << result.get() << "\n"; 















































} 

这 里 定义 了 lambda 表达 式 meaning， 并 且 将 lambda 表达 式 的 参数 传递 给 了 std::async()。 
这 里 使 用 了 类 型 推导 来 决定 std: :async() 的 模板 参数 。std: :async() 返回 一 个 能 够 得 到 一 
个 整数 值 或 是 一 个 异常 的 future， 它 会 被 移动 到 result 中 。result.get() 的 调用 会 挂 起 ， 
直到 std: :async() 调用 的 线程 通过 返回 它 的 整数 型 参数 设置 它 的 promise。 线 程 终 止 是 由 
std::async() 负责 的 ， 它 可 能 会 将 线程 保留 在 线程 池 中 。 

这 段 示 例 代码 不 需要 显 式 地 负责 线程 终止 。 如 果 回 收 线程 比 销毁 线程 然后 重新 创建 线程 更 
加 高 效 ， 那 么 在 需要 时 ，std: :async() 可 能 会 使 用 C++ 运行 时 系统 维护 的 线程 池 来 回收 线 
程 。 在 C++17 标准 中 可 能 会 加 入 显 式 的 线程 池 。 


12.2.4 互 斥 量 


C++ 提供 了 几 种 互 斥 量 模板 来 实现 临界 区 的 互 斥 。 互 斥 量 模板 的 定义 非常 简单 ， 我 们 能 够 

很 轻松 地 定义 某 种 依赖 操作 系统 的 原生 互 斥 量 类 的 特 化 实现 。 

<mutex> 头 文件 包含 了 四 种 互 斥 量 模板 。 

std: :mutex 
一 种 简单 且 相 对 高 效 的 互 斥 量 。 在 Windows 上 ， 这 个 类 会 首先 尝试 繁忙 等 待 策略 ， 如 
果 它 无 法 很 快 获 得 互 斥 量 ， 就 会 改 为 调用 操作 系统 。 

std: :recursive mutex 
一 种 线程 能 够 递归 获取 的 互 斥 量 ， 就 像 函 数 的 风 套 调用 一 样 。 由 于 该 类 需要 对 它 被 获取 
的 次 数 计数 ， 因 此 可 能 稍微 低 效 。 

std: :timed mutex 
允许 在 一 定时 间 内 淮 试 获取 互 斥 量 。 要 想 在 一 定时 间 内 尝试 获取 互 斥 量 ， 通 常 需要 操作 
系统 的 介入 ， 导 致 与 std: :mutex 相 比 ， 这 类 互 斥 量 的 延迟 显著 地 增 大 了 。 

std: :recursive timed mutex 
一 种 能 够 在 一 定时 间 内 递归 地 获取 的 互 斥 量 ， 带 有 “ 草 末 ”“ 香 刘 效 ”和 “神秘 调料 ”。 
这 类 互 斥 量 很 “美味 ”， 但 是 开销 也 非常 昂贵 。 
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根据 我 的 经 验 ， 在 一 定时 间 内 递归 地 获取 互 斥 量 是 一 种 警告 ， 它 表明 应 当 简 化 设计 。 递 归 
锁 的 界线 难以 划 清 ， 因 此 容易 引起 死 锁 。 除 非 确实 有 必要 ， 否 则 我 们 完全 无 需 忍 受 它们 那 
昂贵 的 开销 ， 在 设计 新 的 代码 时 也 应 该 避免 使 用 它们 。 
在 C++14 中 加 入 的 <shared_mutex> 头 文件 包含 了 对 共享 互 斥 量 一 一 也 被 称 为 readerwriter 
互 斥 量 一 一 的 支持 。 一 个 单独 的 线程 可 以 以 排他 模式 锁 住 共享 互 斥 量 来 原子 性 地 更 新 数据 
结构 。 多 个 线程 能 够 以 共享 模式 锁 住 一 个 共享 互 斥 量 来 原子 性 地 读 取 数 据 结构 ， 但 是 在 所 
有 的 读 取 者 都 释放 互 斥 量 之 前 无 法 以 排他 模式 锁 住 它 。 共 享 互 斥 量 允许 更 多 的 线程 无 需 等 
待 就 能 访问 数据 结构 ， 实 现 了 读 取 访 问 的 最 大 化 。 这 些 共 享 互 斥 量 包括 以 下 两 者 。 
std::shared_timed_mutex 

一 种 同时 支持 定时 和 非 定 时 获取 互 斥 量 的 共享 互 斥 量 。 
std: :shared_mutex 

一 个 更 加 简单 的 共享 互 斥 量 ， 按 照 计划 在 C++17 中 会 被 加 入 。 
就 我 的 经 验 来 看 ， 除 非 读 取 不 频繁 ， 否 则 reader/writer 互 斥 量 会 导致 写 线程 “ 饥 俄 ”。 在 这 
种 情况 下 ， 对 reader/writer 进行 优化 的 价值 是 微不足道 的 。 开 发 人 员 必 须 在 使 用 递归 互 斥 
量 这 种 更 加 复杂 的 互 斥 量 时 格外 小 心 ， 而 且 应 当 总 是 选择 更 加 简单 且 可 预测 的 互 斥 量 。 



















































































12.2.5 锁 
在 C++ 中， 汉字 “ 锁 ” 指 的 是 以 一 种 结构 化 方式 获取 和 释放 互 斥 量 的 RAI 类 。 这 个 字 的 
用 法 有 时 候 会 让 人 困惑 ， 因 为 互 斥 量 有 时 也 指 锁 。 获 取 互 斥 量 也 被 称 为 锁 住 互 斥 量 ， 释 
放 互 斥 量 也 被 称 为 解锁 互 斥 量 。 在 C++ 中 ， 互 斥 量 的 获取 互 斥 量 的 成 员 函 数 的 名 字 叫 作 
Lock()。 我 虽然 已 经 使 用 互 斥 量 20 多 年 了 ， 但 是 仍然 必须 集中 注意 力 来 确保 在 使 用 这 些 概 
念 时 意思 足够 明确 。 
C++ 标准 库 提供 了 一 种 简单 的 用 于 获得 单个 互 斥 量 的 锁 ， 还 提供 了 一 种 更 加 通用 的 用 于 获 
得 多 个 互 斥 量 的 锁 。 后 者 实现 了 一 种 避免 死 锁 的 算法 。 
在 <mutex> 头 文件 中 有 两 个 锁 模板 。 
std::Lock_guard 
一 种 简单 的 RAII 锁 。 在 这 个 类 的 构造 过 程 中 ， 程 序 会 等 待 直到 获得 锁 ， 而 在 析 构 过 程 
中 则 会 释放 锁 。 这 个 类 的 预 标准 实现 通常 被 称 为 scope_guard。 
std: :unique_lock 
一 个 通用 的 互 斥 量 所 有 权 类 ， 提 供 了 RAI 锁 、 延 迟 锁 、 定 时 锁 、 互 斥 量 所 有 权 的 转移 
和 条 件 变量 的 使 用 。 


在 C++14 的 <shared_mutex> 头 文件 中 加 入 了 共享 互 斥 量 的 锁 。 
std: :shared_Lock 


共享 (reader/writer) 互 斥 量 的 一 个 互 斥 量 所 有 权 类 。 它 提供 了 std: :unique_Lock 的 所 
有 复杂 特性 ， 另 外 还 有 共享 互 斥 量 的 控制 权 。 


一 个 单独 的 线程 能 够 以 排他 模式 锁 住 一 个 共享 互 斥 量 来 原子 性 地 更 新 数据 结构 。 多 个 线程 
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能 够 以 共享 模式 锁 住 一 个 共享 互 斥 量 来 原子 性 地 读 取 数据 结构 ， 但 是 在 所 有 的 读 取 者 都 释 
放 互 斥 量 之 前 无 法 以 排他 模式 锁 住 它 。 








12.2.6 ”条件 变 量 


条 件 变量 允许 C++ 程序 实现 由 著名 计算 机 科学 家 托尼 霍 尔 和 布 林 奇 - 汉 森 提出 ， 并 已 在 
Java 中 作为 同步 类 被 广泛 使 用 的 监视 器 的 概念 “。 


一 个 监视 器 在 多 线程 之 间 共 享 一 个 数据 结构 。 当 一 个 线程 成 功 地 进入 监视 器 后 ， 它 就 拥有 
一 个 允许 它 更 新 共享 数据 结构 的 互 斥 量 。 线 程 可 能 会 在 更 新 共享 数据 结构 后 退出 监视 器 ， 
放弃 它 的 排他 访问 权限 。 它 也 可 能 会 阻塞 在 一 个 条 件 变 量 上 ， 和 暂时 地 放弃 排他 访问 权限 直 
到 这 个 条 件 变 量变 为 特定 的 值 。 


一 个 监视 器 可 以 有 一 个 或 多 个 条 件 变 量 。 每 个 条 件 变 量 都 表示 数据 结构 中 一 个 概念 上 的 状 
态 改变 事件 。 当 运 行 于 监视 器 中 的 一 个 线程 更 新 数据 结构 时 ， 它 必须 通知 所 有 会 受到 这 次 
更 新 影响 的 条 件 变量 ， 它 们 所 表示 的 事件 发 生 了 。 


C++ 在 <condition_variable> 头 文件 中 提供 了 条 件 变量 的 两 种 实现 方式 。 它 们 之 间 的 区 别 
在 于 所 接收 的 参数 锁 的 一 般 性 。 
std::condition_variable 
最 高 效 的 条 件 变 量 ， 它 需要 使 用 std: :unique_lock 来 锁 住 互 斥 量 。 
std: :condition variable any 


一 种 能 够 使 用 任何 BasicLockable 锁 ( 即 任何 具有 Lock() 和 untock() 成 员 函 数 的 锁 ) 
的 条 件 变 量 。 该 条 件 变 量 可 能 会 比 std: :condition_variable 低 效 。 


当 一 个 线程 被 条 件 变量 释放 后 ， 该 线程 必须 验证 数据 结构 的 状态 是 否 与 预期 相同 。 这 是 
因为 有 些 操 作 系 统 可 能 会 虚假 地 通知 条 件 变量 (我 的 经 验 是 程序 错误 也 可 能 会 引发 这 种 
现象 )。 代 码 清单 12-7 是 使 用 条 件 变 量 实现 一 个 多 线程 的 生产 者 / 消费 者 设计 模式 的 扩 
展示 例 。 


代码 清单 12-7 使 用 条 件 变 量 实现 的 简单 的 生产 者 和 消费 者 


void cv_example() { 
std: :mutex m; 
std: :condition variable cv; 
bool terminate = false; 
int shared data = 0; 
int counter = 0; 

































































auto consumer = [&]() { 
std: :unique_lock<std: :mutex> lk(m); 
do { 
while (!(terminate || shared_ data != 0)) 
cv.wait(lk); 





注 4: 请 参见 C.A.R Hoare, “Monitors: An Operating System Structuring Concept,” ACM Communications 17 (Oct 
1974): 549-557 
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if (terminate) 
break; 


std::cout << "consuming " << shared data << std::endl; 


shared_data = 0; 
cv.notify_one(); 
} while (true); 
}; 


auto producer = [&]() { 
std: :uniquyue_lock<std: :mutex> lk(m); 
for (counter = 1; true; ++counter) { 


cv.wait(lk,[&]() {return terminate || shared_data == 0;}); 


if (terminate) 
break; 
shared_data = counter; 


std::cout << "producing " << shared data << std::endl; 


cv.notify_one(); 
} 
此 


auto p = std::thread(producer); 
auto c = std::thread(consumer); 


std: :this_thread: :sleep_for(std::chrono: :milliseconds(1000)); 


{ 
std: :lock_guard<std: :mutex> 1(m); 
terminate = true; 


std::cout << "total items consumed " << counter << std: 


cv.notify_all(); 
p.join(); 
c.join(); 
exit(0); 

} 


:endl; 





代码 清单 12-7 中 的 生产 者 通过 将 一 个 名 为 shared_data 的 整数 变量 设 为 非 零 值 来 进行 “ 生 
产 ”"。 消 费 者 通过 将 其 重新 设置 为 零 来 “消费 ”shared_ 
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通 久 




















消费 者 ， 接 着 打 一 个 1000 毫秒 的 且 。 当 主线 程 醒 来 后 ， 














data。 主 程序 线程 会 启动 生产 者 和 


会 锁 但 























返回 ， 在 概念 上 重新 进入 监视 器 。 
代码 清单 12-7 使 用 了 一 个 条 件 变 量 表示 “数据 结构 被 更 新 了 ”。3 
shared_data != 0， 但 它 也 需要 在 terminate == true 
用 。 与 此 形成 对 比 的 是 在 Windows 的 waitForMuLtipLe0bjects() 函数 中 的 信号 数组 。 另 外 
一 种 类 似 的 情况 是 使 用 一 个 条 件 变 量 唤 醒 消 费 者 ， 使 用 另 一 个 条 件 


; 














起 在 名 为 











主 互 斥 量 m 短暂 地 进入 监 





视 器 ， 接 着 设置 terminate 标识 位 ， 这 会 ea pe ett 
I 条件 变量 terminate 的 状态 发 生 了 改变 ， 加 入 两 个 线程 并 退出 。 


消费 者 通过 锁 住 互 斥 量 m 进入 监视 器 。 消 费 者 是 一 个 挂 
秆 环 。 当 它 挂 起 在 cv 上 时 ， 消 费 者 不 在 监视 器 内 ， 互 斥 量 
消费 时 ，cv 会 收 到 通知 。 消 费 者 会 醒 来 ， 重 新 锁 住 互 斥 量 m 并 从 





cv 的 条 件 变 量 上 的 单 层 








Em 是 可 用 的 。 当 没有 东西 可 以 


它 对 cv.wait() 的 调用 中 


肖 费 者 通常 等 待 的 更 新 是 


时 醒 来 。 这 是 对 同步 原 语 的 合理 使 











变量 唤醒 生产 者 。 





肖 费 者 在 一 个 循环 中 调用 cv.wait()， 每 次 醒 来 时 都 会 检查 是 否 满足 了 合适 的 条 件 。 这 是 
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因为 有 些 实现 能 够 在 不 合适 的 时 候 假 装 意外 地 唤醒 等 待 条 件 变量 变 为 合适 值 的 线程 。 如 果 
条 件 满足 了 ， 那 么 退出 while 循环 。 如 果 唤 醒 消费 者 的 条 件 是 terminate == true， 那 么 
消费 者 会 退出 外 层 循环 并 返回 。 否 则 ， 条 件 就 是 shared_data != 0。 消费 者 会 打印 出 一 条 
消息 ， 接 着 通过 设置 shared_data 为 0 表示 它 已 经 消费 了 数据 并 通知 cv 共享 数据 发 生 了 变 
化 。 在 这 时 ， 消 费 者 仍然 在 监视 器 内 ， 持 有 加 在 互 斥 量 m 上 的 锁 ， 但 它 会 继续 循环 ， 再 次 
进入 cv.wait()， 释 放 互 斥 量 并 在 概念 上 退出 监视 器 。 


生产 者 也 是 类 似 的 。 它 会 挂 起 ， 直 到 它 看 到 了 加 在 互 斥 量 mn 上 的 锁 ， 然 后 它 会 进入 到 外 层 
循环 中 ， 直 到 它 看 到 了 terminate == true。 生 产 者 会 等 待 cv 状态 发 生 改 变 。 在 本 例 中 ， 
生产 者 使 用 了 一 个 接收 谓词 (predicate) 作为 参数 的 版 本 的 wait()， 这 会 导致 一 直 循 环 直 
至 判断 式 为 faLse。 因 此 谓词 就 是 在 通知 条 件 变量 中 隐藏 的 条 件 。 这 第 二 种 形式 是 语法 糖 ， 
它 隐藏 了 while 循环 。 一 开始 ，shared_data 已 经 是 0 了 ， 因 此 生产 者 不 会 等 待 cv。 然 后 
它 更 新 shared_data 并 通知 cv， 接 着 循环 回去 进入 cv.wait()， 释 放 互 斥 量 并 在 概念 上 退 
出 监视 器 。 


12.2.7 ”共享 变量 上 的 原子 操作 
C++ 标准 库 <atomic> 头 文件 提供 了 用 于 构建 多 线程 同步 原 语 的 底层 工具 : 内 存 栅 栏 和 原子 
性 的 加 载 与 存储 。 
std: :atomtc 提供 了 一 种 更 新 任意 数据 结构 的 标准 机 制 ， 前 提 条 件 是 这 种 数据 结构 有 可 用 
的 复制 构造 国 数 或 是 移动 构造 图 数 。std: :atonmic 的 任何 特 化 实现 都 必须 为 任意 类 型 T 提 
供 以 下 函数 。 
load() 

std::atomic<T> 提供 了 成 员 函 数 T Load(memory_order)， 它 可 以 原子 性 地 复制 T 对 象 到 


std: :atomic<T> 外 部 。 

























































































store() 
std: :atomic<T> 提供 了 成 员 函 数 store(T，memory_order)， 它 可 以 原子 性 地 复制 7 对象 
到 std::atomic<T> 内 部 。 


is_lock_free() 
如 果 在 这 个 类 型 上 定义 的 所 有 的 操作 的 实现 都 没有 使 用 互 斥 ，is_lock_free() 返回 bool 
值 true， 就 如 同 是 使 用 一 条 单独 的 读 - 改 - 写 机 器 指令 进行 操作 一 样 。 
std: :atomic 为 整数 和 指针 类 型 提供 了 特 化 实现 。 只 要 处 理 器 支持 ， 这 些 特 化 不 调用 操作 
系统 的 同步 原 语 就 能 够 同步 内 存 。 这 些 特 化 实现 提供 了 一 组 能 够 在 现代 硬件 上 实现 的 原子 
性 操作 。 
std: :atonmic 的 性 能 取决 于 编译 代码 的 处 理 器 。 


。 Itel 架构 的 PC 具有 丰富 的 读 - 改 - 写 指令 ， 原 子 性 访问 的 性 能 开销 取决 于 内 存 栅栏 ， 
其 中 部 分 栅栏 完全 没有 性 能 开销 。 

。 在 有 读 - 改 - 写 指令 的 单 核心 处 理 器 上 ，std::atomtc 可 能 根本 不 会 生成 任何 额外 代码 。 

。 在 没有 原子 性 的 读 - 改 - 写 指令 的 处 理 器 上 ，std::atomic 可 能 是 用 昂贵 的 互 斥 实现 的 。 
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内 存 栅栏 
std: :atomic 的 许多 成 员 函 数 都 会 接收 一 个 可 选 参数 memory_order， 它 会 选择 一 个 围绕 在 操 
作 上 下 的 栅栏 。 如 果 没 有 提供 memory_order 参数 ， 它 的 默认 值 是 memory_order_acq_rel。 
这 样 会 选择 使 用 永远 安全 但 开销 昂贵 的 完全 栅栏 。 当 然 ， 还 有 其 他 许多 受 限 制 的 栅栏 可 
选 ， 不 过 最 好 是 由 知识 渊博 的 开发 专家 来 做 出 决定 。 
内 存 栅栏 通过 多 个 硬件 线程 的 高 速 缓存 来 同步 主 内 存 。 通 常 ， 在 一 个 线程 与 另 一 个 线程 同 
步 时 ， 这 两 个 线程 上 都 会 加 上 内 存 栅栏 。 在 C++ 中 能 够 使 用 以 下 内 存 栅栏 。 
memory_order_acquire 
你 可 以 将 memory_order_acquire 理解 为 “通过 其 他 线程 完成 所 有 工作 ”的 意思 。 它 确保 
随后 的 加 载 不 会 被 移动 到 当前 的 加 载 或 是 前 面 的 加 载 之 前 。 自 相 了 矛盾 的 是 ， 它 是 通过 等 
待 在 处 理 器 和 主 内 存 之 间 的 当前 的 存储 操作 完成 来 实现 这 一 点 的 。 如 果 没 有 栅栏 ， 当 一 
次 存储 还 处 于 处 理 器 和 主 内 存 之 间 ， 它 的 线程 就 在 相同 的 地 址 进行 了 一 次 加 载 时 ， 该 线 
呈 会 得 到 旧 的 数据 ， 仿 佛 这 次 在 程序 中 加 载 被 移动 到 了 存储 之 前 。 


memory_order_acquire 可 能 会 比 默认 的 完全 栅栏 高 效 。 例 如 ， 在 原子 性 地 读 取 在 繁忙 等 
待 whitle 循环 中 的 标识 位 时 ， 可 以 使 用 memory_order_acquire。 

memory_order_release 
你 可 以 将 memory_order_release 理解 为 “通过 这 个 线程 将 所 有 工作 释放 到 这 个 位 置 ” 的 
意思 。 它 确保 这 个 线程 完成 的 之 前 的 加 载 和 存储 不 会 被 移动 到 当前 的 存储 之 后 。 它 是 通 
过 等 待 这 个 线程 内 部 的 当前 存储 操作 完成 来 实现 这 一 点 的 。 
memory_order_release 可 能 会 比 默认 的 完全 栅栏 高 效 。 例 如 ， 在 自 定 义 的 互 斥 量 的 尾部 
设置 标识 位 时 ， 可 以 使 用 memory_order_release。 


memory_order_acq_rel 
这 会 结合 之 前 的 两 种 “确保 ”， 创 建 一 个 完全 栅栏 。 

memory_order_consume 
memory_order_consume 是 memory_order_acquire 的 一 种 弱化 (但 更 快 ) 的 形式 ， 它 只 要 
求 当前 的 加 载 发 生 在 其 他 依赖 这 次 加 载 数据 的 操作 之 前 。 例 如 ， 当 一 个 指针 的 加 载 被 标 
记 为 nemory_order_consume 时 ， 紧 接着 的 解 引 这 个 指针 的 操作 就 不 会 被 移动 它 之 前 。 


memory_order_relaxed 


使 用 这 个 值 意味 着 允许 所 有 的 重新 排序 。 


虽然 在 大 多 数 处 理 器 上 都 实现 了 内 存 栅栏 ， 但 它 是 一 个 迟钝 的 工具 。 内 存 栅栏 会 阻挡 程序 
前 进 ， 直 至 所 有 的 写 操作 都 完成 。 在 现实 中 ， 实 际 上 只 需 等 待 所 有 写 共 享 地 址 的 操作 完成 
即 可 。 但 无 论 是 C++ 还 是 x86 兼容 处 理 器 ， 都 无 法 识别 出 这 组 更 加 小 的 地 址 范围 ， 特 别 是 
当 这 组 地 址 会 随 着 线程 不 同 而 不 同时 。 
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停 下 来 思考 

如 今 发 布 的 多 核 X86 处 理 器 具有 非常 优秀 的 内 存 模 型 。 所 有 的 加 载 都 具有 “获取 ” 语 
义 ， 所 有 的 存储 都 具有 “释放 ”语义 。 也 就 是 说 ，X86 架构 对 内 存 访 问 加 上 了 非常 严 
格 的 顺序 。 可 能 是 考虑 到 在 运行 遗留 程序 的 主机 上 并 发 特性 的 实现 可 能 不 正确 ， 为 了 
维持 兼容 性 ， 不 得 不 在 x86 中 放弃 一 种 更 加 积极 的 内 存 模型 。PowerPC、ARM 和 安 腾 
处 理 器 的 排序 能 力 更 弱 (但 性 能 更 高 )。 

这 意味 着 现在 使 用 Visual C++ 在 x86 架构 下 编写 C++ 并 发 程序 的 开发 人 员 能 够 摆脱 多 
线程 泥潭 但 是 如 果 他 们 在 ARM 或 是 PowerPC 处 理 器 上 重 编 译 相 同 的 程序 ， 可 能 
会 因 在 已 经 仔细 调试 完成 并 能 正常 工作 的 代码 中 发 现 新 的 线程 bug 感到 吃惊 。 














原子 性 访问 并 非 万 灵 丹 。 内 存 栅栏 的 性 能 开销 非常 郧 贵 。 为 了 探究 这 种 开销 究 竞 有 多 蝇 
贵 ， 我 进行 了 一 项 测试 ， 分 别 计算 一 次 原子 性 存储 操作 与 简单 存储 操作 的 时 间 并 进行 对 
比 。 代 码 清单 12-8 记录 了 循环 进行 简单 的 原子 性 操作 〈 带 有 默认 的 完全 栅栏 ) 的 时 间 。 


代码 清单 12-8 ”原子 性 存储 操作 测试 
typedef unsigned Long Long counter 七 ; 
std::atomic<counter t> x; 
for (counter_t i = 0, iterations = 10'000'000 * multiplier; 
i < iterations; ++i) 
Xs 
在 我 的 PC 上 ， 这 项 测试 耗 时 15 318 毫秒 。 非 原子 性 版 本 的 测试 代码 如 代码 清单 12-9 所 
示 ， 测 试 结果 为 992 毫秒 ， 几 乎 快 了 14 倍 。 存 储 操作 越 多 ， 这 之 间 的 差距 就 会 越 大 。 


代码 清单 12-9 非 原 子 性 存储 操作 的 测试 
typedef unsigned Long Long counter 七 ; 
Counter 七 X; 
for (Counter t i = 0, iterations = 10'000'000 * multiplier; 
i < iterations; ++i) 
X= 
如 果 std: :atomic 是 用 操作 系统 互 斥 量 实现 的 一 一 在 某 些 小 型 处 理 器 上 可 能 会 是 这 样 一 一 
性 能 上 的 差距 可 能 会 达到 几 个 数量 级 。 因 此 ， 我 们 应 当 在 已 经 知道 目标 机 的 硬件 架构 的 前 
提 下 ， 决 定 是 否 使 用 std: :atomic。 
如 果 你 不 明白 数值 常量 中 的 单 引 号 的 作用 ， 那 么 我 告诉 你 ， 这 是 在 C++14 中 增加 的 几 个 小 
却 非常 棒 的 特性 之 一 ， 它 的 作用 是 将 数值 常量 按 位 分 隔 。 有 些 人 可 能 会 认为 C++14 中 的 变 
化 小 而 烦 ， 但 我 却 觉 得 它们 非常 实用 。 


12.2.8 展望 未 来 的 C++ 并 发 特性 
开发 者 社区 对 并 发 非常 感 兴趣 ， 毫 无 疑问 ， 这 是 因为 开发 人 员 和 希望 充分 利用 快速 发 展 


的 计算 机 资产 ， 而 并 发 具有 这 个 能 力 。 许 多 开发 人 员 在 使 用 原生 调用 或 是 POSIX 线程 
(pthreads) 库 的 C 风格 的 函数 实现 线程 并 发 方面 经 验 丰富 。 其 中 部 分 开发 人 员 构建 了 C++ 
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风格 的 封装 器 ， 对 原生 调用 进行 了 封装 。 其 中 最 好 的 封装 器 则 吸收 了 用 户 社区 的 意见 和 其 
他 封装 器 的 优点 。 关 于 关于 C++ 并 发 特性 的 许多 提议 已 经 进入 了 标准 化 流程 。C++17 可 能 
会 带 来 更 多 的 并 发 扩展 支持 一 一 但 是 除了 未 来 确实 正在 朝 我 们 走 来 以 外 ， 没 有 任何 事情 是 
确定 的 。 
以 下 是 C++17 可 能 会 带 给 我 们 的 一 些 并 发 特性 。 
协作 多 线程 
在 协作 多 线程 中 ， 两 个 或 多 个 软件 线程 通过 语句 显 式 地 互相 传递 执行 ， 这 样 实 际 上 在 同 
一 时 间 只 有 一 个 线程 在 运行 。 协 程 (coroutines) 就 是 协作 多 线程 的 例子 。 


协作 多 线程 有 几 个 重要 的 优点 。 
。 在 没有 主动 执行 时 ， 每 个 线程 能 够 维护 自己 的 执行 上 下 文 。 
。 由 于 在 一 个 时 刻 只 有 一 个 线程 在 运行 ， 因 此 无 法 共享 变量 ， 无 需 互 斥 。 
协 程 可 能 会 被 加 入 到 C++17 中 ， 而 在 Boost (http://www.boost.org/doc/libs/1_59_0/libs/ 
coroutine/doc/html/index.html) 中 现在 就 能 够 使 用 协 程 了 。C++ 并 发 技术 报告 工作 组 最 
近 的 提案 (http://www.open-std.org/jtcl/sc22/wg21/docs/papers/2015/n4399.html) 中 列举 
了 各 种 创新 的 并 发 计划 。 

SIMD 指令 
SIMD 是 单 指令 多 数据 (single instruction multiple data) 的 首 字母 缩写 。 在 支持 SIMD 
的 处 理 器 中 ， 某 些 指 令 会 操作 寄存 器 向 量 。 处 理 器 会 同时 在 向 量 中 的 每 个 寄存 器 上 进行 
相同 的 操作 ， 与 标量 操作 相 比 减少 了 间接 开销 。 
C++ 编译 器 通常 不 会 生成 SIMD 指令 ， 因 为 它们 的 行为 很 复杂 ， 不 大 符合 C++ 描述 
程序 的 方式 。 依 赖 于 编译 器 的 编译 指令 或 是 内 联 汇编 特性 允许 在 函数 中 插入 SIMD 指 
令 ， 然 后 这 些 函 数 会 被 收录 到 用 于 数字 信号 处 理 或 是 计算 机 图 形 等 专业 任务 的 库 中 。 因 
此 ，SIMD 编程 是 同时 依赖 于 处 理 器 和 编译 器 的 。 互 联网 上 有 许多 关于 SIMD 指令 的 资 
源 ， 其 中 Stack Exchange Q&A (http://gamedev.stackexchange.com/questions/12601/simd- 
c-library) 上 有 许多 讨论 如 何在 C++ 中 使 用 SIMD 的 资料 。 


12.3 ”优化 多 线程 C++ 程序 


天 下 没有 免费 的 午餐 。 
一 一 这 向 话 最 早出 现在 1938 年 6 月 27 日 《 埃 尔 帕 索 先驱 报 》 的 
“八字 经 济 学 ”文章 中 。1966 年 出 版 的 罗伯特 海 因 莱恩 的 小 说 
《严厉 的 月 亮 》 中 引用 了 这 向 话 ， 因 而 为 许多 极 客 所 熟知 。 
截至 2016 年 早期 , 具有 高 度 管道 执行 单元 和 多 级 高 速 缓存 的 多 核心 处 理 器 已 经 得 到 了 广 
泛 的 使 用 。 它 们 的 架构 非常 适合 控制 多 线程 的 高 性 能 执行 。 执 行 许多 线程 需要 频繁 地 切换 
上 下 文 ， 这 种 开销 是 昂贵 的 。 
在 设计 并 发 程序 时 ， 必 须 在 心中 牢记 这 种 架构 。 试 图 勉强 地 在 当前 的 桌面 处 理 器 上 设计 数 
据 并 行 的 细 粒 度 并 发 模型 ， 可 能 会 导致 程序 的 并 发 性 能 低 效 。 
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在 未 来 ， 城 市 漂浮 在 去 上， 个 人 都 能 拥有 蕉 浮 车 ， 那 时 的 编程 语言 应 该 能 够 自动 且 高 效 地 
并 行 执行 程序 。 但 是 在 那 之 前 ， 还 是 需要 由 每 个 开发 人 员 自 己 来 找到 那些 能 够 并 发 执行 的 
任务 。 尽 管 在 程序 中 能 够 进行 并 发 处 理 的 机 会 非常 多 ,但 是 有 些 地 方 特别 适合 多 线程 处 
里 。 我 将 在 下 面 的 小 市 中 列举 儿 个 例子 。 

程序 中 线程 的 行为 可 以 深入 到 其 结构 中 。 因 此 优化 线程 行为 会 比 优化 内 存 分 配 或 是 函数 调 
用 更 加 复杂 。 优 化 并 发 程序 性 能 的 设计 实践 是 存在 的 ， 其 中 有 些 实践 是 最 近 几 年 才 出 现 
的 ， 所 以 即使 是 那些 经 验 丰富 的 开发 者 可 能 也 不 知道 。 
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12.3.1 用 std: :async 替 代 std: :thread 


从 性 能 优化 的 角度 看 ，std: :thread 有 一 个 非常 严重 的 问题 ， 那 就 是 每 次 调用 都 会 启动 一 

个 新 的 软件 线程 。 启 动 线程 时 ， 直 接 开销 和 间接 开销 都 会 使 得 这 个 操作 非常 昂贵 。 

。 直接 开销 包括 调用 操作 系统 为 线程 在 操作 系统 的 表 中 分 配 空间 的 开销 、 为 线程 的 楼 分 配 
内 存 的 开销 、 初 始 化 线程 寄存 器 组 的 开销 和 调度 线程 运行 的 开销 。 如 果 线 程 得 到 了 一 份 
新 的 调度 量子 (scheduling quantum) ， 在 它 开始 执行 之 前 会 有 一 段 延迟 。 如 果 它 得 到 了 
其 他 正在 被 调用 线程 的 调度 量子 ， 那 么 在 存储 正在 被 调用 线程 的 寄存 器 时 会 发 生 延 迟 。 

。 创建 线程 的 间接 开销 是 增加 了 所 使 用 的 内 存 总 量 。 每 个 线程 都 必须 为 它 自己 的 函数 调用 
栈 预 留存 储 空间 。 如 果 频 繁 地 启动 和 停止 大 量 线程 ， 那 么 在 计算 机 上 执行 的 线程 会 竞争 
访问 有 限 的 高 速 缓 存 资源 ， 导 致 高 速 缓存 发 生 拌 动 。 

软件 线程 的 数量 比 硬件 线程 的 数量 多 时 会 带 来 另外 一 种 间接 开销 。 由 于 需要 操作 系统 
进行 调度 ， 因 此 所 有 线程 的 速度 都 会 变 慢 。 

我 通过 执行 代码 清单 12-10 中 的 代码 片段 测量 了 启动 和 停止 线程 的 性 能 开销 。thread 内 部 

的 空 函 数 会 立即 返回 。 这 是 可 能 的 最 短 的 函数 。 调 用 join() 会 让 主线 程 等 待 thread 结束 ， 

导致 线程 调用 变 为 了 “ 端 到 端 >， 没 有 任何 并 发 。 如 果 不 是 为 了 测量 线程 的 启动 开销 而 有 

意 为 之 ， 那 么 它 就 是 一 个 精 糕 的 并 发 设计 。 


代码 清单 12-10 ”启动 和 停止 std: :thread 

std: :thread 七 ; 

t = std::thread([]() { return; }); 

t.join(); 
事实 上 ， 这 项 测试 可 能 并 不 能 完全 代表 线程 调用 的 开销 ， 因 为 线程 没有 写 任何 数据 到 高 速 
缓存 中 。 但 是 测试 结果 还 是 非常 高 的 ; 10 000 个 线程 调用 耗 时 大 约 1350 毫秒 ， 也 就 是 说 ， 
在 Windows 上 启动 和 停止 一 个 线程 平均 耗 时 135 微 秒 。 这 个 开销 可 能 是 执行 lambda 表达 
式 的 数 千 倍 。 在 执行 短小 的 计算 时 ， 即 使 能 够 并 发 执行 ，std: :thread 的 开销 也 是 惊人 地 
昂贵 。 
由 于 这 是 一 种 延迟 ， 因 此 程序 无 法 避免 这 种 开销 。 这 是 在 std: :thread 的 构造 函数 的 调用 
返回 之 前 和 join() 的 调用 结束 之 前 耗费 的 时 间 。 即 使 程序 分 离线 程 ， 而 不 是 加 入 这 些 线 
程 ， 这 项 测试 仍然 耗 时 超过 700 毫秒 。 


并 发 编程 的 一 项 实用 优化 技巧 是 用 复 用 线程 取代 在 每 次 需要 时 创建 新 线程 。 线 程 可 能 会 在 
某 个 条 件 变量 上 挂 起 ， 直 到 程序 需要 使 用 它们 时 才 会 被 释放 ， 并 接着 执行 一 个 可 调用 对 
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象 。 尽 管 切 换 线程 的 有 些 开 销 〈 保 存 和 恢复 寄存 器 并 刷新 和 重新 填充 高 速 缓存 ) 是 相同 
的 ， 但 可 以 移 除 或 减少 为 线程 分 配 内 存 以 及 操作 系统 调度 线程 等 其 他 开销 。 


模板 函数 std: :async() 会 运行 线程 上 下 文中 的 可 调用 对 象 ， 但 是 它 的 实现 方式 允许 复 用 
线程 。 从 C++ 标准 来 看 ，std: :async() 可 能 是 使 用 线程 池 的 方式 实现 的 。 在 Windows 上 ， 
std: :async() 明显 快 得 多 。 我 在 一 个 循环 中 调用 代码 清单 12-11 的 代码 片段 测量 了 性 能 改 
善 效果 。 


代码 清单 12-11 使 用 async() 启动 和 停止 线程 


std: :async(std: :launch::async, []() { return; }); 


async() 会 返回 一 个 std: :future， 在 这 种 情况 下 它 是 一 个 匿名 临时 变量 。 只 要 std: :async() 
一 返回 ， 程 序 就 会 立即 调用 这 个 匿名 std::future 的 析 构 函数 。 析 构 函 数 会 等 待 该 future 
变 为 就 绪 状 态 ， 因 此 它 可 以 抛 出 所 有 会 发 生 的 异常 。 这 里 不 需要 显 式 地 调用 join() 或 是 
detach()。 与 代码 清单 12-10 一 样 ， 代 码 清单 12-11 也 使 线程 执行 变 为 了 “ 端 到 端 ” 状 态 。 


改善 效果 是 显著 的 : 调用 简单 的 lambda 表达 式 10 000 次 只 耗 时 86 毫秒 ， 这 比 每 次 都 启动 
一 个 新 线程 快 了 大 约 14 倍 。 


12.3.2 ”创建 与 核心 数量 一 样 多 的 可 执行 线程 

早期 的 讨论 并 发 的 专题 论文 建议 只 要 方便 就 创建 尽量 多 的 线程 ， 这 种 方式 与 创建 动态 变量 

类 似 。 这 种 思想 仿佛 是 在 一 个 古老 的 世界 中 ， 让 线程 争 相 引 起 一 个 处 理 器 的 注意 一 样 。 在 

多 核 处 理 器 的 现代 世界 中 ， 这 种 思想 太 过 于 简单 了 。 

性 能 优化 开发 人 员 要 区 别 出 具 有 不 同行 为 的 两 种 线程 。 

连续 计算 的 可 运行 线程 
一 个 可 运行 线程 会 消耗 运行 它 的 核心 的 100% 的 计算 资源 。 如 果 有 个 核心 ， 那 么 在 每 
个 核心 都 运行 一 个 可 运行 线程 能 够 将 时 钟 运行 时 间 减 少 到 几乎 n。 不 过 ， 一 旦 在 每 个 
核心 上 都 有 一 个 线程 正在 运行 ， 那 么 即使 再 增加 额外 的 线程 也 无 法 进一步 缩短 运行 时 
间 ， 反 而 会 将 硬件 的 使 用 时 间 划 分 为 小 之 又 小 的 碎片 。 事 实 上 ， 细 分 的 粒度 是 有 限制 
的 ， 如 果 超 过 了 这 个 限制 ， 那 么 所 有 的 时 间 都 会 被 用 来 启动 和 停止 线程 ， 无 忠 进 行 计 
算 。 随 着 可 运行 线程 数量 的 逐渐 增加 ， 程 序 的 整体 性 能 也 会 下 降 并 最 终 接 近 为 0。 

等 待 外 部 事件 ， 接 着 进行 短暂 计算 的 可 等 待 线程 
可 等 待 线程 只 会 消耗 一 个 核心 上 百 分 之 几 的 可 用 计算 资源 。 如 果 可 等 待 线程 的 执行 是 互 
相交 又 的 ， 那 么 一 个 可 等 待 线程 会 在 另外 一 个 可 等 待 线程 等 待 时 进行 计算 ， 这 样 在 一 个 
核心 上 调度 多 个 可 等 待 线程 能 够 使 用 大 部 分 的 可 用 资源 。 这 能 够 将 时 钟 时 间 减 少 到 饱和 
的 程度 ， 即 所 有 的 计算 资源 都 在 使 用 中 。 


在 单 核 时 代 ， 将 计算 作为 可 运行 线程 调度 没有 任何 益处 。 所 有 的 性 能 收益 都 来 自 于 让 多 个 
可 等 待 线程 交叉 执行 。 但 在 进入 多 核 时 代 后 ， 情 况 就 不 一 样 了 。 

C++ 提供 了 一 个 std: :thread: :hardware_concurrency() 国 数 ， 它 可 以 返回 可 用 核心 的 数 
量 。 这 个 函数 会 计算 由 hypervisor 分 配给 其 他 虚拟 机 的 核心 ， 以 及 因 多 线程 同步 而 表现 为 
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两 个 或 多 个 逻辑 核心 的 核心 的 数量 。 通 过 这 个 国 数 ， 以 后 我 们 可 以 方便 地 将 程序 部 署 到 包 
含 更 多 〈 或 少 ) 核心 的 硬件 上 运行 。 
为 了 测试 多 线程 的 性 能 改善 效果 ， 我 编写 了 一 个 timewaster() 函数 (代码 清单 12-12)， 它 
会 反复 地 执行 一 段 消耗 时 间 的 计算 。 如 果 所 有 的 遍历 都 是 在 主 程序 的 一 个 循环 中 进行 的 ， 
那么 计算 总 共 耗 时 3087 毫秒 。 
代码 清单 12-12 一 段 反复 浪费 计算 机 时 间 的 测试 代码 

void timewaster(unsigned iterations) { 


for (counter ti = 0; i < iterations; ++i) 
fibonacci(n); 











} 


接着 我 编写 了 一 个 创建 用 于 执行 timewaster() 的 线程 的 函数 ， 其 中 传递 给 timewaster() 的 
参数 是 已 经 遍历 的 次 数 除 以 线程 数 〈 代 码 清单 12-13)。 在 使 用 这 个 函数 测试 性 能 时 ， 我 试 
着 改变 线程 数量 得 到 了 多 份 测量 结果 。 
代码 清单 12-13 ”一段 多 线程 的 浪费 计算 机 时 间 的 测试 代码 

void multithreaded_ timewaster( 


unsigned iterations, 
unsigned threads) 














{ 
std: :vector<std::thread> t; 
t.reserve(threads); 
for (unsigned i = 0; i < threads; ++i) 
t.push_back(std::thread(timewaster, iterations/threads)); 
for (unsigned i = 0; i < threads; ++i) 
t[i].join(); 
} 
我 观察 到 了 以 下 现象 。 


。 在 我 的 PC 上 ，std::thread: :hardware_concurrency() 的 返回 结果 是 4。 如 我 所 料 ， 以 4 
个 线程 运行 时 的 测试 结果 最 快 ， 达 到 了 1870 上 毫秒。 

。 令 人 有 些 吃惊 的 是 ， 这 个 最 短 时 间接 近 单 线程 测试 结果 的 一 半 (而 不 是 四 分 之 一 )。 

。 尽管 实验 结果 表明 ， 当 线程 超过 4 个 时 耗 时 更 长 ， 但 每 次 运行 时 间 都 略 有 不 同 ， 因 此 这 
个 结果 是 不 可 靠 的 。 

当然 ， 程 序 能 够 启动 的 线程 数量 是 很 难 限制 的 。 在 多 位 开发 人 员 开 发 的 或 是 使 用 第 三 方 库 

开发 的 大 型 程序 中 ， 也 许 无 法 知道 在 程序 中 究竟 启动 了 多 少 个 线程 。 程 序 会 在 任何 有 需要 

的 地 方 创建 线程 。 尽 管 操作 系统 作为 容器 知道 正在 运行 的 所 有 线程 ， 但 这 已 经 超出 了 C++ 

的 范围 了 。 


12.3.3 ”实现 任务 队列 和 线程 池 
解决 不 知道 有 多 少 个 线程 正在 运行 这 个 问题 的 方法 是 让 线程 更 加 明显 : 使 用 线程 池 (一 种 


保持 固定 数量 的 永久 线程 的 数据 结构 ) 和 任务 队列 (一 种 存储 待 执 行 的 计算 的 列表 的 数据 
结构 )， 这 些 计 算 将 由 线程 池 中 的 线程 负责 执行 。 
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在 面向 任务 的 编程 中 ， 程 序 是 一 组 可 运行 任务 (runnable task) 对 象 的 集合 ， 这 些 任务 由 线 
程 池 中 的 线程 负责 执行 。 当 一 个 线程 变 为 可 用 状态 后 ， 它 会 从 任务 队列 中 取得 一 个 任务 并 
执行 。 执 行 完 任务 后 ， 线 程 并 不 会 终止 ， 而 是 要 么 继续 做 下 一 个 任务 ， 要么 挂 起 ， 等 待 新 
任务 的 到 来 。 


面向 任务 的 编程 有 以 下 几 个 优点 。 


。 面向 任务 的 编程 能 够 通过 非 阻塞 IO 调用 高 效 地 处 理 IO 完成 事件 ,提高 处 理 器 的 利用 率 。 

。 使 用 线程 池 和 任务 队列 能 够 移 除 为 短 周期 任务 启动 线程 的 间接 开销 。 

。 面向 任务 的 编程 将 异步 处 理 集中 在 一 组 数据 结构 中 ， 因 此 容易 限制 使 用 中 的 线程 的 
数量 。 


面向 任务 的 编程 的 一 个 缺点 是 控制 返 转 (inversion of control)。 控 制 流 不 再 由 程序 指定 ， 而 
是 变 为 事件 消息 接收 的 顺序 。 这 会 增加 讨论 或 调试 面向 任务 编程 的 难度 ,但 以 我 的 经 验 
看 ,很 少 会 发 生 这 种 混乱 的 情况 。 

C++ 马上 就 会 有 标准 线程 池 和 任务 队列 了 ， 很 可 能 就 是 在 C++17 中 。 至 于 现在 ， 我 
们 可 以 在 Boost 库 和 英特尔 的 线程 构建 模块 (Threading Building Blocks,，http://www. 
threadingbuildingblocks.org/) 中 使 用 它们 。 


12.3.4 在 单独 的 线程 中 执行 MO 


磁盘 转速 和 网 络 连接 距离 等 物理 现实 问题 造成 在 程序 请 求 数 据 和 数据 变 为 可 用 状态 之 间 存 
在 着 延迟 。 因 此 ，JO 是 适用 并 发 的 绝 佳 位 置 。 另 外 一 个 典型 的 IO 问题 是 ， 程 序 在 写 数 
据 之 前 或 是 读数 据 之 后 必须 对 它 进行 转换 。 例 如 ， 我 们 先 从 互联 网 上 读 取 一 个 XML 文件 ， 
接着 解析 它 ， 从 中 提取 程序 所 需 信息 。 由 于 在 对 数据 进行 转换 之 前 是 无 法 直接 使 用 它 的 ， 
我 们 可 以 考虑 将 整个 处 理 (包括 读数 据 和 解析 数据 ) 移动 到 一 个 单独 的 线程 中 。 


12.3.5 没有 同步 的 程序 

同步 和 互 斥 会 降低 多 线程 程序 的 速度 。 摆 脱 同步 可 以 提升 程序 性 能 。 编 写 疫 有 显 式 同步 的 

程序 ， 有 三 个 简单 方式 和 一 个 困难 方式 。 

面向 事件 编程 
在 面向 事件 编程 中 ， 程 序 是 一 组 由 框架 调用 的 事件 处 理 函 数 的 集合 。 底 层 框 架 从 事件 队 
列 中 将 每 个 事件 分 发 给 注册 了 该 事件 的 事件 处 理 函 数 。 面 向 事件 编程 在 许多 方面 都 与 面 
向 任务 编程 类 似 。 在 面向 事件 的 程序 中 ， 框 架 的 行为 类 似 于 任务 调度 器 ， 而 事件 处 理 函 
数 则 类 似 于 任务 。 它 们 两 者 之 间 的 重要 区 别 在 于 ， 在 面向 事件 的 程序 中 ， 框 架 是 单线 程 
的 ， 事件 处 理 函 数 也 不 会 并 发 执行 。 


面向 事件 编程 有 以 下 几 个 优点 。 


。 由 于 底层 框架 是 单线 程 的 ， 因 此 无 需 同步 。 
下 向 事 件 的 程序 能 够 通过 非 阻塞 VO 调用 高 效 地 处 理 VO 完成 事件 。 面 向 事件 的 程序 
能 够 达到 与 多 线程 程序 同样 高 的 处 理 器 使 用 率 。 
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与 面向 任务 的 程序 一 样 ， 面 向 事件 程序 的 主要 缺点 也 是 控制 返 转 ， 控 制 流 会 变 为 事件 消 
息 接 收 的 顺序 。 这 可 能 会 增加 讨论 或 调试 面向 事件 程序 的 难度 。 
协 程 
协 程 是 可 执行 对 象 ， 虽 然 它 会 显 式 地 将 执行 从 一 个 对 象 转交 给 另外 一 个 对 象 ， 但 是 它们 
会 记 住 执行 指针 ， 这 样 如 果 它 们 被 再 次 调用 了 也 可 以 继续 执行 。 与 面向 事件 的 程序 相 
同 ， 协 程 并 非 真 正 的 多 线程 ， 因 此 只 要 它们 不 受 多 线程 控制 就 不 需要 同步 。 
协 程 有 两 种 。 第 一 种 有 自己 的 栈 ， 而 且 可 以 在 执行 途中 的 任何 位 置 将 控制 转交 给 另外 一 
个 协 程 。 第 二 种 是 向 另外 一 个 线程 借 栈 ， 并 且 只 能 在 它 的 顶层 转交 控制 。 
协 程 可 能 会 被 加 入 到 C++17 中 。 
消息 传递 
在 消息 传递 程序 中 ， 控 制 线程 从 一 个 或 多 个 输入 源 中 接收 输入 ， 对 输入 进行 转换 后 将 它 
放 到 一 个 或 多 个 输出 槽 中 。 相 互 连 接 的 输出 和 输入 组 成 了 一 幅 具 有 和 良好 定义 的 入 口 节 点 
和 出 口 节点 的 图 。 这 些 被 实现 了 一 个 销 息 传 递 程序 的 各 个 阶段 的 线程 所 读 写 的 元 素 可 以 
是 网 络 数据 报 、 字 符 IO 流 或 是 隐 式 队列 中 的 数据 结构 。 
Unix 命令 行 管道 和 Web 服务 都 是 消息 传递 编程 的 例子 。 分 布 式 处 理 系 统 的 组 件 也 都 是 
消息 传递 程序 。 
消息 传递 程序 的 优点 包括 以 下 几 点 。 


。 各 个 阶段 的 输出 与 下 个 阶段 的 输入 的 同步 是 隐 式 的 一 一 要 么 是 在 各 个 阶段 进行 数据 
通信 时 由 操作 系统 进行 同步 ， 要 么 是 在 连接 各 个 阶段 的 队列 中 进行 同步 。 系 统 的 并 
发 发 生 在 各 个 阶段 之 外 ， 因 此 ， 通 常 都 可 以 认为 这 些 阶 段 是 可 能 会 阻塞 输入 或 输出 



































































































































操作 的 单线 程 代码 。 

。 由 于 每 个 阶段 的 输出 与 下 个 阶段 的 输入 相关 联 ,， “饥饿 ”和 “公平 ”问题 不 会 出 现 得 
那么 频繁 。 

。 在 较 大 单位 的 数据 上 ， 同 步 不 会 出 现 得 那么 频繁 。 这 增加 了 多 线程 能 够 并 发 执行 的 
时 间 比 例 。 





。 由 于 管道 阶段 不 共享 变量 ， 它 们 不 会 受 互 斥 量 和 内 存 栅栏 影响 而 导致 处 理 速度 降低 。 

。 较 大 单位 的 工作 可 以 在 各 管道 阶段 之 间 传 递 ， 这 样 每 个 阶段 会 使 用 完整 的 时 间 片 ， 
不 会 因 互 不 而 先 停止 和 再 启动 。 这 有 助 于 提高 处 理 器 的 使 用 率 。 

消息 传递 程序 的 缺点 如 下 。 

。 消息 自身 并 非 面向 对 象 的 。C++ 开发 人 员 必 须 编 写 代 码 让 输入 消息 排队 进入 成 员 函 
数 调用 。 

。 当 管道 阶段 崩溃 时 ， 如 何 进行 错误 恢复 是 一 个 问题 。 

。 不 是 每 个 问题 都 有 一 个 明显 的 可 以 作为 独立 程序 传递 消息 的 管道 的 解决 方案 。 
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停 下 来 思考 
本 书 讨 论 了 C++ 共享 变量 和 同步 线程 的 特点 ， 因 为 这 些 是 C++ 语言 特有 的 能 让 程序 
高 效 运行 的 特点 。 消 息 传 递 程序 也 可 能 会 使 用 C++ 以 外 的 库 ， 因 此 我 们 不 会 过 多 介绍 
它们 。 但 这 并 不 表示 消息 传递 不 重要 。 
有 一 个 畅所欲言 的 大 型 设计 社区 认为 隐 式 同步 和 共享 变量 是 一 个 糟糕 的 主意 复杂 、 
易 发 生 竞争 而 且 无 法 扩展 。 这 些 开 发 人 员 认 为 唯一 能 够 以 可 扩展 的 方式 实现 并 发 编程 
的 就 是 管道 。 














即使 是 高 并 发 架构 的 GPU 也 没有 提供 共享 内 存 ， 因 此 对 于 这 些 处 理 器 ,设计 消息 传递 程 
序 是 有 必要 的 。 


无 锁 编 程 (lock-free programming) 





Hic Sunt Dracones 


享 特 一 雷诺 克 斯 地 球 仪 上 的 铭文 (1503-1507) ， 有 瞳 示 危 险 未 知 的 海岸 


无 锁 编程 是 指 无 需 互 斥 ， 允 许多 线程 更 新 数据 结构 的 编程 实践 。 在 无 锁 程 序 中 ， 硬 件 同 
步 的 原子 性 操作 取代 了 昂贵 的 互 斥 量 。 无 锁 数 据 结构 远 比 由 互 斥 量 保护 的 传统 容器 要 优 
秀 ， 特 别 是 当 许 多 线程 访问 同一 个 容器 时 。 

C++ 中 无 锁 的 数组 、 队 列 和 散 列表 容器 类 已 经 发 布 了 。Boost 也 有 无 锁 的 栈 和 队列 容器 
(http://www.boost.org/doc/libs/1_59_0/doc/html/lockfree.html)， 但 是 只 在 GCC 和 Clang 
编译 器 上 进行 了 测试 。 英 特 尔 的 线程 构建 模块 (http://www.threadingbuildingblocks.org/) 
中 有 无 锁 的 数组 、 队 列 和 散 列 表 容 器 。 由 于 无 锁 编 程 的 需求 ， 这 些 容 器 并 非 与 C++ 标 
准 库 中 的 容器 完全 相同 。 

无 锁 数据 结构 很 难 讨论 清楚 。 即 使 是 著名 专家 也 会 就 已 公布 算法 的 正确 性 进行 争论 。 出 
于 这 个 原因 ， 我 建议 读者 使 用 那些 已 经 被 广泛 使 用 且 有 较 好 技术 支持 的 无 锁 数 据 结构 ， 
而 不 要 试图 去 构建 自己 的 无 锁 数 据 结构 。 


12.3.6 ” 移 除 启动 和 停止 代码 


一 个 程序 能 够 启动 足够 多 的 线程 来 满足 并 发 执行 任务 的 需求 ， 或 是 充分 使 用 多 核 CPU。 不 
过 ， 程 序 中 有 部 分 代码 难以 并 发 执行 ， 那 就 是 在 main() 得 到 控制 权 前 执行 的 代码 以 及 在 
main() 退出 后 执行 的 代码 。 


在 main() 开始 执行 前 ， 所 有 具有 静态 存储 期 (请 参见 6.1.1 节 ) 的 变量 都 会 被 初始 化 。 对 
于 基本 数据 类 型 ， 初 始 化 的 性 能 开销 是 0。 链 接 器 会 让 变量 指向 初始 化 数据 。 但 是 对 于 具 
有 静态 存储 期 的 类 类 型 ， 初 始 化 过 程 会 以 标准 所 指定 的 特定 顺序 ， 在 单独 的 线程 中 连续 地 
调用 各 个 变量 的 构造 函数 。 

我 们 很 容易 忽略 ， 需 要 用 静态 字符 串 常量 来 初始 化 的 字符 串 等 变量 实际 上 会 在 初始 化 过 程 
中 执行 代码 。 同 样 ， 如 果 构 造 函 数 在 初始 化 列表 中 有 函数 调用 或 是 非常 量 表达 式 ， 那 么 它 
们 也 会 在 运行 时 执行 ， 即 使 构造 函数 的 函数 体 是 空 的 。 
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这 些 开销 单独 看 起 来 很 小 ， 但 是 加 起 来 就 会 很 天， 导致 大 型 程序 在 启动 时 会 有 几 秒 钟 失去 
响应 。 








优化 战争 故事 
谷歌 Chrome 浏览 器 是 由 数 百人 耗 时 数 年 开发 出 来 的 一 个 复杂 程序 ， 在 其 中 需要 初始 
化 的 表 的 数量 多 得 令 人 难以 置信 。 为 了 确保 启动 性 能 不 会 降低 ( 太 多 )，Chromium 项 
目 组 管理 者 在 代码 评审 中 加 入 了 一 条 规则 一 一 只 有 得 到 承认 才能 添加 需要 用 可 执行 代 
码 进 行 初 始 化 的 静态 变量 。 











12.4 让 同步 更 加 高 效 

同步 是 共享 内 存 的 并 发 的 间接 开销 。 减 小 这 种 间接 开销 对 优化 性 能 非常 重要 。 

有 一 个 公认 的 观点 是 ， 诸 如 互 斥 等 同步 原 语 于 是 昂贵 的 。 事 实 当 然 是 复杂 的 。 例 如 在 
Windows 和 Linux 上 ，std::mutex 所 基于 的 互 斥 量 是 一 种 混合 设计 ， 它 会 先 在 一 个 原子 
变量 上 繁忙 等 待 一 小 段 时 间 ， 然 后 如 果 不 能 很 快 获 得 互 斥 量 ， 就 在 操作 系统 信号 上 挂 起 。 
如 果 没 有 其 他 线程 持 有 互 斥 量 ， 那 么 这 个 开销 很 小 。 当 线程 必须 在 信号 上 挂 起 时 ， 开 销 
是 以 毫秒 计算 的 。 互 斥 量 的 重要 开销 是 等 待 其 他 线程 释放 它 的 开销 ， 而 不 是 调用 Lock() 
的 开销 。 
多 线程 程序 最 容易 遇 到 的 问题 是 有 许多 线程 争 相 获取 同一 个 互 斥 量 。 如 果 这 种 竞争 不 激 
烈 ， 那 么 持 有 互 斥 量 通常 不 会 降低 其 他 线程 的 性 能 。 而 当 竞争 很 激烈 时 ， 任 何 被 竞争 的 互 
斥 量 都 会 导致 同一 时 刻 只 有 一 个 线程 在 运行 ， 打 破 了 开发 人 员 试 图 让 程序 的 各 个 部 分 并 发 
执行 的 计划 。 

并 发 C++ 程序 比 单线 程 程序 要 复杂 得 多 ， 很 难 编写 侦 
果 ， 因 此 我 必须 回 到 本 节 中 的 启发 法 上 来 。 


12.4.1 减 小 临界 区 的 范围 

临界 区 是 指 获取 互 斥 量 和 释放 互 斥 量 之 间 所 包围 的 区 域 。 在 临界 区 的 执行 过 程 中 ， 没 有 其 
他 线程 能 够 访问 该 互 斥 量 所 控制 的 共享 变量 。 这 就 是 临界 区 的 了 问题。 如果 在 临界 区 中 并 没 
有 访问 共享 变量 而 是 只 做 其 他 事情 ， 那 么 其 他 线程 就 会 白白 浪费 等 待 时 间 。 

为 了 午 清 这 个 问题 ， 请 读者 再 看 看 代码 清单 12-7。 两 个 lambda 表达 式 的 生产 者 和 消费 者 
在 两 个 线程 中 并 发 运行 。 两 个 线程 突然 试图 进入 互 斥 量 m 控制 的 监视 器 中 。 除 非 两 个 线 
程 正 在 cv.wait()， 否 则 它们 会 待 在 监视 器 中 。 生 产 者 会 设置 共享 变量 shared_data 为 下 
一 个 连续 值 ， 而 消费 者 则 会 清除 shared_data。 但 是 生产 者 和 消费 者 各 自 都 会 做 另外 一 人 
事 一 一 在 cout 中 输出 一 条 信息 。 

正如 之 前 说 到 的 ， 对 在 我 的 这 计算 机 上 用 Visual Studio 2015 的 发 布 模式 编译 的 代码 进行 
的 测试 结果 是 ，cv_example 能 够 在 1000 毫秒 内 更 新 shared_data35 至 45 次 。 仅 仅 从 这 
个 结果 看 ， 可 能 难以 判断 性 能 到 底 是 高 还 是 低 。 但 是 在 我 注释 了 两 条 输出 语句 之 后 ，cv_ 
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| 子 或 是 测试 用 例 来 得 到 令 人 信服 的 结 
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example 能 够 进行 125 万 次 更 新 。 输 出 字符 到 控制 台 上 需要 进行 很 多 后 台 操作 ， 因 此 这 样 
想来 我 并 不 感觉 太 吃惊 。 
从 这 里 我 学 到 了 两 点 。 第 一 点 是 难以 高 效 地 使 用 监视 器 概念 。 除 非 等 待 一 个 条 件 变量 ， 否 
则 代码 总 是 在 监视 器 中 。 第 二 点 是 在 临界 区 中 执行 TO 处 理 无 法 提高 性 能 。 


12.4.2 ”限制 并 发 线程 的 数量 

正如 在 12.3.2 节 中 提 到 的 ， 我 们 应 当 使 可 运行 线程 的 数量 少 于 或 等 于 处 理 器 核心 的 数量 ， 
这 样 能 够 移 除 切换 上 下 文 的 间接 开销 。 在 讲解 另外 一 个 理由 之 前 ， 我 需要 先 阐述 一 下 互 不 
量 是 如 何 实现 的 。 


Windows、Linux 和 其 他 现代 操作 系统 所 提供 的 互 斥 量 类 都 具有 为 多 核 处 理 器 优化 过 的 混 
合 设 计 。 如 果 线 程 4 试图 去 获取 一 个 没有 被 锁 住 的 互 斥 量 ， 那 么 它 很 快 就 能 获得 这 个 互 斥 
量 。 但 是 如 果 4 试图 去 获取 线程 t, 所 持 有 的 互 斥 量 ， 那 么 会 首先 繁忙 等 待 一 短 有 限 的 时 
间 。 如 果 忆 在 紧 忙 等 待 时 间 结 束 之 前 释放 了 互 斥 量 ,1 会 得 到 互 斥 量 并 继续 进行 处 理 ， 高 
效 地 使 用 完整 的 时 间 片 。 如 果 没有 及 时 释放 互 斥 量 ，t 会 在 操作 系统 事件 上 挂 起 ， 放 弃 
被 分 配 到 的 时 间 片 。 会 进入 操作 系统 的 “ 挂 起 ”列表 。 


如 果 线 程 数 量 比 核心 数量 多 ， 则 只 有 一 部 分 线程 会 被 分 配给 核心 ， 在 某 个 时 间 点 也 只 
一 部 分 线程 会 实际 运行 。 甚 他 线程 会 在 操作 系统 的 “可 运行 ”队列 中 等 待 被 分 配 时 间 片 。 
操作 系统 会 因 周 期 性 的 中 断 而 醒 来 ， 决 定 运行 哪个 线程 。 与 单独 指令 的 执行 速度 相 比 ， 
中 断 周期 很 长 。 因 此 ,“ 可 运行 ”队列 中 的 线程 可 能 会 在 操作 系统 为 它 分 配 核心 之 前 等 待 
许多 毫秒 。 

如 果 妃 持 有 互 斥 量 但 并 疫 有 实际 在 执行 ， 而 是 在 操作 系统 的 “可 运行 ”队列 中 等 待 ， 那 么 
它 就 无 法 释放 互 斥 量 。 当 4 试图 去 获取 互 矿 量 时 ， 繁 忙 等 待 会 超时 ， 接 着 4 会 在 操作 系统 
事件 上 挂 起 ， 这 意味 着 4 放弃 了 操作 系统 分 配给 它 的 时 间 片 和 核心 ,并 进入 到 了 操作 系统 
的 “ 挂 起 ”队列 。 最 终 被 分 配 了 一 个 核心 然后 释放 了 互 矿 量 ， 发 出 4 所 挂 起 的 事件 。 操 
作 系 统 注意 到 该 事件 发 生 后 将 4 移动 到 “可 运行 ”队列 。 但 是 操作 系统 并 无 需 立 即 为 4 分 
配 核 心 “。 除 非 线 程 在 事件 上 挂 起 了 , 否则 操作 系统 就 让 当前 分 配给 核心 的 线程 运行 完整 的 
时 间 片 。 直 到 有 些 其 他 线程 耗 尽 了 它们 的 时 间 片 ， 操 作 系 统 才 会 分 配 核心 给 新 的 可 运行 线 
程 4， 而 这 可 能 会 耗 时 许多 写 秒 。 

这 就 是 开发 人 员 要 试图 通过 限制 活动 线程 的 数量 来 解决 的 导致 程序 性 能 下 降 的 问题 。 避 免 
发 生 这 种 问题 能 够 让 t, 和 4 每 秒 执行 数 百 万 次 互 锁 操作 ， 而 不 仅仅 是 数 百 次 。 

竞争 临界 区 的 理想 线程 数量 是 两 个 。 当 只 有 两 个 线程 时 ， 就 不 存在 “公平 ”或 是 “饥饿 ” 
问题 ， 也 不 会 发 生 下 一 市 中 将 要 介绍 的 惊 群 问题 。 
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注 5: 这 里 我 省 略 了 一 些 罗 涩 难 解 的 细节 。Windows 会 修改 线程 优先 级 ， 尽 快 给 新 来 的 可 运行 线程 一 次 执行 
机 会 。 其 他 操作 系统 则 会 进行 一 些 其 他 处 理 ， 和 希望 减少 临界 区 的 持续 时 间 。 关 键 是 一 旦 操作 系统 涉及 
临界 区 ， 这 就 会 是 一 断 漫长 的 等 待 过 程 。 
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12.4.3 ”避免 惊 群 

当 有 许多 线程 挂 起 在 一 个 事件 一 一 例如 只 能 服务 一 个 线程 的 工作 一 一 上 时 就 会 发 生 所 谓 的 
惊 群 (thundering herd) 现象 。 当 发 生 这 个 事件 时 ， 所 有 的 线程 都 会 变 为 可 运行 状态 ， 但 由 
于 只 有 几 个 核心 ， 因 此 只 有 几 个 线程 能 够 立即 运行 。 其 中 只 有 一 个 线程 能 够 拿 到 互 斥 量 继 
续 进 行 工作 ， 操 作 系统 会 将 其 他 线程 移动 到 可 运行 队列 中 ， 并 最 终 逐 个 运行 线程 。 每 个 线 
程 都 会 发 现 发 出 的 事件 已 经 被 其 他 某 个 线程 服务 了 ， 只 得 继续 挂 起 在 这 个 事件 上 ， 虽 然 消 
耗 了 很 多 时 间 但 线程 处 理 却 没有 任何 进展 。 

避免 “ 惊 群 ”问题 的 方法 就 是 限制 创建 出 的 服务 事件 的 线程 的 数量 。 两 个 线程 可 能 比 一 个 
线程 好 ， 但 是 100 个 线程 可 能 并 不 会 更 好 (请 参见 12.4.2 节 )。 相 比 于 将 线程 与 每 项 工作 
相关 联 的 设计 ， 对 于 实现 工作 队列 的 软件 设计 来 说 ， 限 制 线程 数 可 能 更 容易 。 


12.4.4 ”避免 锁 护 送 

当 大 量 线程 同步 ， 挂 起 在 某 个 资源 或 是 临界 区 上 时 会 发 生 锁 护 送 (lock convoy)。 这 会 

致 额外 的 阻塞 ， 因 为 它们 都 会 试图 立即 继续 进行 处 理 ， 但 是 每 次 却 只 有 一 个 线程 能 够 继续 
处 理 ， 仿 佛 是 在 护送 锁 一 样 。 
一 种 简单 的 情况 是 接二连三 地 发 生 “ 惊 群 ” 现 象 。 大 量 线程 竞争 一 个 互 斥 量 ， 这 样 大 量 线 
程 会 挂 起 在 该 互 斥 量 的 操作 系统 信号 上 。 当 持 有 互 斥 量 的 线程 释放 它 时 ， 事 件 就 会 发 生 ， 
所 有 挂 起 的 线程 都 会 变 为 可 运行 状态 。 第 一 个 被 分 配 到 处 理 器 的 线程 会 再 次 锁 住 互 斥 量 。 
所 有 的 其 他 线程 最 终 都 会 被 分 配 到 处 理 器 ， 看 到 互 斥 量 仍然 被 锁 住 了 ， 然 后 再 次 挂 起 。 这 
对 程序 的 整体 影响 是 操作 系统 虽然 花费 了 很 多 时 间 重 启 线程 ， 但 大 多 数 线程 都 无 法 继续 处 
理 。 更 糟糕 的 是 ， 所 有 的 线程 都 仍然 是 同步 的 。 当 下 个 线程 释放 互 斥 量 时 它们 会 立即 醒 
来 ， 然 后 如 此 往复 循环 。 

一 种 更 复杂 的 情况 则 是 “ 惊 群 ”线程 都 试图 去 获取 第 二 个 互 斥 量 或 执行 读 取 文 件 等 某 种 因 
设备 的 物理 特性 而 成 为 性 能 瓶颈 的 操作 。 由 于 线程 都 是 同步 的 ， 它 们 几乎 会 在 同时 试图 去 
访问 第 二 个 资源 。 这 些 线程 在 同一 个 时 间 请 求 相同 的 资源 会 导致 序列 化 ， 使 性 能 下 降 。 如 
果 它 们 没有 同步 ， 那 么 它们 可 能 都 会 继续 处 理 。 

当 系 统 通常 都 运行 良好 ， 但 偶尔 会 看 起 来 失去 响应 几 秒 钟 ， 那 么 就 可 以 看 出 发 生 了 锁 
护送 。 

尽管 仍然 总 是 有 在 另外 一 个 地 方 出 现 锁 护 送 的 风险 ， 但 减少 线程 数量 或 是 调度 线程 在 不 同 
的 时 间 启 动能 够 缓解 出 现 锁 护 送 的 情况 。 有 时 ， 最 好 能 够 简单 地 确认 一 下 ， 某 个 组 的 任务 
是 否 因为 共享 了 某 个 硬件 设备 或 是 其 他 性 能 瓶颈 资源 而 无 法 并 发 执行 。 


12.4.5 减少 竞争 
在 多 线程 程序 中 ， 线 程 可 能 会 竞争 资源 。 任 何 时 候 ， 两 个 或 多 个 线程 需要 相同 的 资源 时 ， 
互 斥 都 会 导致 线程 挂 起 ， 无 法 并 发 。 有 几 种 技术 能 够 解决 竞争 问题 。 


注意 内 存 和 1/O 都 是 资源 
并 非 所 有 的 开发 人 员 都 注意 到 内 存 管理 器 是 一 种 资源 。 在 多 线程 系统 中 ， 内 存 管理 器 必 
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须 序列 化 对 它 的 访问 ， 否 则 它 的 数据 结构 会 被 破坏 。 当 大 量 线 程 都 试图 分 配 动态 变量 
(std::string 是 一 个 特别 的 敌人 ) 时 ， 程 序 的 性 能 可 能 会 随 着 线程 数量 的 增加 出 现 断 崖 
式 下 降 。 
文件 IO 也 是 一 种 资源 。 磁 盘 驱 动 器 一 次 只 能 读 取 一 个 地 址 。 试 图 同时 在 多 个 文件 上 执 
行 IO 操作 会 导致 性 能 突然 下 降 。 
网 络 IO 也 是 一 种 资源 。 相 对 于 数据 传输 ， 以 太 网 连接 器 是 一 条 相对 较 罕 的 管道 。 现 代 
处 理 器 其 至 能 够 使 1000 兆 带 宽 的 以 太 网 线 满 负 葆 传输 ， 更 别提 WiFi 连接 了 。 
当 出 现 性 能 问题 时 ， 我 们 需要 回 过 头 问 :“ 现 在 整个 程序 正在 进行 什么 处 理 ? ”多 数 时 
候 记 录 日 志 都 不 会 导致 发 生性 能 问题 ， 但 是 当 有 其 他 处 理 在 使 用 磁盘 或 是 网 卡 时 ， 它 可 
能 会 降低 程序 性 能 。 那 种 动态 数据 结构 无 法 扩展 至 许多 线程 。 
复制 资源 
有 时 候 ， 我 们 可 以 复制 表 ， 让 每 个 线程 都 有 一 份 非 共 享 的 副本 ， 来 移 除 多 线程 对 于 共 
享 的 map 或 是 散 列表 等 资源 的 竞争 。 尽 管 维护 一 个 数据 结构 的 两 份 副 本 会 带 来 更 多 的 工 
作 ， 但 与 使 用 一 种 共享 数据 结构 相 比 ， 它 可 能 还 会 减少 程序 运行 时 间 。 
我 们 甚至 能 够 复制 磁盘 驱动 器 、 网 卡 等 硬件 资源 来 提高 吞吐 量 。 
分 割 资源 
有 时 候 我 们 可 以 分 割 数据 结构 ， 让 每 个 线程 只 访问 它们 所 需 的 那 部 分 数据 ， 来 避免 多 线 
程 竞 争 同 一 个 数据 结构 。 
细 粒 度 锁 
我 们 可 以 使 用 多 个 互 斥 量 ， 而 不 是 一 个 互 斥 量 来 锁 住 整个 数据 结构 。 例 如 ， 在 散 列 表 中 ， 
我 们 可 以 使 用 一 个 互 斥 量 锁 住 散 列 表 的 骨干 数组 ， 防 止 其 被 修改 〈 例 如 插入 和 删除 元 
素 )， 然 后 用 另外 一 个 互 斥 量 锁 住 元 素 ， 防 止 它们 被 修改 。 这 里 ，reader/writer 锁 是 一 个 不 
错 的 选择 。 要 访问 散 列 表 的 一 条 元 素 时 ， 线 程 可 以 使 用 读 锁 锁 住 骨 干 数组 ， 然 后 用 一 个 
读 锁 或 写 锁 锁 住 元 素 。 要 插入 或 删除 一 条 元 素 时 ， 线 程 可 以 使 用 写 锁 锁 住 骨干 数组 。 








































































































无 锁 数据 结构 
我 们 使 用 无 锁 散 列表 等 无 锁 数据 结构 来 摆脱 对 互 斥 的 依赖 。 这 是 细 粒 度 锁 的 终极 形态 。 
资源 的 调度 











有 些 资源 一 一 例如 磁盘 驱动 器 是 无 法 被 复制 或 分 割 的 。 但 是 我 们 可 以 调度 磁盘 活 
动 ， 让 它们 不 要 同时 发 生 ， 或 是 让 访问 磁盘 相 邻 部 分 的 活动 同时 发 生 。 
尽管 操作 系统 会 在 细 粒 度 级 别 调度 读 写 操作 ， 但 是 程序 能 够 通过 序列 化 读 取 配 置 文件 等 
操作 ， 避 免 它们 同时 发 生 。 

12.4.6 不 要 在 单 核 系统 上 繁忙 等 待 


C++ 的 并 发 特性 允许 开发 人 员 实 现 高 性 能 同步 原 语 进 行 繁忙 等 待 。 但 是 蛇 忙 等 待 并 非 总 是 
三 个 好 主意 。 


在 单 核 处 理 器 上 ， 同 步 线程 的 唯一 方法 是 调用 操作 系统 的 同步 原 语 。 繁 忙 等 待 太 低 效 了 。 
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事实 上 ， 繁 忙 等 待 会 导致 线程 浪费 整个 时 间 片 ， 因 为 除非 在 等 待 的 线程 放弃 使 用 处 理 器 ， 
否则 持 有 互 斥 量 的 线程 是 无 法 运行 出 临界 区 的 。 





12.4.7 不 要 永远 等 待 


当 一 个 线程 无 条 件 地 等 待 一 个 事件 时 会 如 何 呢 ? 如 果 程 序 正常 运行 ， 可 能 什么 事情 都 不 会 
发 生 。 但 是 如 果 用 户 试图 停止 程序 ， 会 如 何 呢 ? 用 户 界面 关闭 了 ， 但 是 程序 不 会 停止 ， 因 
为 线程 仍然 在 运行 。 如 果 main() 尝试 加 入 正在 等 待 的 线程 ， 它 会 挂 起 。 如 果 正 在 等 待 的 
线程 被 分 离 了 ，main() 会 退出 。 接 下 来 发 生 的 事情 取决 于 线程 如 何等 待 了 。 如 果 它 正在 等 
待 一 个 标识 位 被 设 值 ， 它 会 一 直 等 待 下 去 ， 如 有 果 它 是 在 等 待 操作 系统 的 事件 ， 它 会 一 直 等 
待 下 去 ;如 果 它 是 在 等 待 一 个 C++ 对 象 ， 那 么 这 取决 于 是 否 会 有 某 个 非 阻塞 线程 删除 该 对 
象 。 这 可 能 会 导致 正在 等 待 的 线程 终止 ， 也 可 能 不 会 。 

一 直 等 待 是 错误 恢复 的 天 敌 。 这 就 是 一 个 大 多 数 时 候 正 常 工作 但 有 时 会 出 错 的 程序 和 一 个 
行为 稳定 可 靠 的 、 让 用 户 安心 的 程序 之 间 的 区 别 。 


12.4.8 自己 设计 互 斥 量 可 能 会 低 效 

自己 编写 一 个 简单 的 类 来 作为 互 斥 量 ， 繁 忙 等 待 直到 另 一 个 线程 更 新 原子 性 变量 ， 这 并 不 
难 。 当 没有 激烈 的 线程 竞争 且 临 界 区 很 短 时 ， 这 样 的 类 可 能 甚至 比 系统 提供 的 互 斥 量 更 
快 。 不 过 ， 操 作 系 统 提 供 的 互 斥 量 更 加 了 解 操 作 系 统 的 奥秘 ， 以 及 它 调 度 任务 以 改善 性 能 
或 是 在 该 操作 系统 上 避免 优先 级 反 转 问题 的 方式 。 

要 想 设 计 出 健壮 的 互 斥 ， 必 须 先 熟悉 它们 所 运行 的 基础 一 一 操作 系统 
计 互 斥 量 不 是 性 能 优化 的 康 庄 大 道 。 


12.4.9 限制 生产 者 输出 队列 的 长 度 


在 生产 者 / 消费 者 程序 中 ， 任 何 时 候 只 要 生产 者 比 消费 者 快 ， 数 据 就 会 在 生产 者 和 消费 者 
之 间 累 积 。 这 种 情况 会 产生 许多 问题 ， 其 中 包括 如 下 几 个 。 


。 生产 者 竞争 处 理 器 ,内存 分 配器 和 其 他 资源 ,进而 降低 了 消费 者 的 处 理 速度 ,使 问题 恶化 。 

。 生产 者 将 会 最 终 消 费 所 有 的 系统 内 存 资产， 导致 整 个 程序 异常 终止。 

。 如 果 程 序 能 够 从 异常 中 恢复 过 来 ,在 重启 之 前 它 可 能 会 需要 处 理 队 列 中 累积 的 所 有 数据 ， 
这 将 会 增加 程序 的 恢复 时 间 。 

这 最 有 可 能 在 下 面 这 种 情况 下 发 生 : 程序 有 时 以 最 大 速率 从 流 数据 源 中 接收 输入 数据 ， 限 

制 了 生产 者 的 运行 频率 ， 但 有 时 又 从 文件 等 固定 数据 源 中 获取 输入 数据 ， 而 生产 者 能 够 连 

续 地 运行 。 

解决 方法 是 限制 队列 长 度 并 在 列队 满员 后 阻塞 生产 者 。 队 列 的 长 度 只 需 足 够 应 对 消费 者 性 

能 的 变化 就 可 以 了 。 多 数 情况 下 ， 队 列 其 实 只 需 能 容纳 若干 元 素 即 可 。 队 列 中 的 任何 多 余 

元 素 都 只 会 导致 生产 者 的 运行 遥遥 领先 ， 增 加 资源 消耗 ， 却 对 并 发 没有 任何 益处 。 





































































































的 设计 。 自 己 设 
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12.5 并 发 库 


有 许多 并 发 库 都 深 受 开发 人 员 的 推 党 。 我 建议 打算 实现 消息 传递 风格 的 并 发 程序 的 开发 人 
员 使 用 这 些 工具 。 特 别 是 线程 构建 模块 提供 了 一 些 C++ 标准 中 还 没有 采纳 的 并 发 特性 。 这 
些 开发 库 包 括 如 下 几 个 。 


Boost.Thread (http:Wwww.boost.org/doc/libs/ 1_60_0/doc/html/thread.html) 和 Boost.Coroutine 
(http://www.boost.org/doc/libs/1_60_0/libs/coroutine/doc/html/index.html ) 
Boost 的 线程 库 是 对 C++17 标准 库 线程 库 的 展望 。 其 中 有 些 部 分 现在 仍然 处 于 实验 状 
态 。 Boost.Coroutine 也 处 于 实验 状态 。 


POSIX 线程 
POSIX 线程 (pthreads) 是 一 个 跨 平 台 的 线程 和 同步 原 语 库 ， 它 可 能 是 最 古老 和 使 
用 最 广泛 的 并 发 库 了 。POSIX 线程 是 C 风格 的 函数 库 ， 提 供 了 传统 的 并 发 能 力 。 它 
有 非常 完整 的 文档 资源 ， 不 仅 适 用 于 多 种 Linux 发 行 版 ， 也 适用 于 Windows (http:// 


sourceware.org/pthreads-win32/) 。 















































线程 构建 模块 (TBB ，http:Wwww.threadingbuildingblocks.org/) 

TBB 是 一 个 有 雄心 壮志 的 、 有 恨 好 文档 记录 的 、 具 有 模板 特性 的 C++ 线程 API。 它 提 
供 了 并 行 for 循环 ， 任 务 和 线程 池 ， 并 发 容器 ， 数 据 流 消 息 传递 类 以 及 同步 原 语 。TBB 
由 英特尔 开发 ， 旨 在 提高 多 核 处 理 器 效率 。 现 在 它 已 经 被 开源 了 ， 同 时 支持 Windows 
和 Linux。 它 有 良好 的 文档 记录 ， 其 中 还 包括 一 本 优秀 书籍 (James Reinders 编写 的 
Intel Threading Building Blocks，O”Reilly 出 版 社 )。 





















































0mq (也 拼写 为 ZeroMQ，http://zeromq.org/) 
0mq 是 一 个 用 于 连接 消息 传递 程序 的 通信 和 库 。 它 支持 多 种 通信 范式 ， 追 求 高 效 与 简约 。 
以 我 的 个 人 经 验 来 看 ，0mq 是 非常 优秀 的 。0mq 是 开源 的 ， 有 良好 的 文档 ， 获 得 了 不 少 
支持 。0mq 还 有 一 个 称 为 nanomsg 的 改进 版 (http://www.nanomsg.org)， 它 修正 了 0mq 
中 的 一 些 问题 。 

消息 传递 接口 (MPI,，http://computing.llnl.gov/tutorials/mpi/) 
MPI 是 分 布 式 计算 机 网 络 中 的 消息 传递 的 一 个 API 规范 。 它 的 实现 类 似 于 C 风格 的 函 
数 库 。MPI 诞生 于 加 利 福 尼 亚 的 劳伦斯 利 弗 莫 尔 国家 实验 室 ， 该 实验 室 长 期 与 超级 计算 
机 集群 和 繁 末 的 高 能 物理 联系 在 一 起 。MPI 具有 良好 的 文档 记录 ， 具 有 老式 的 20 世纪 
80 年 代 的 DoD 风格 。 它 既 有 支持 Linux 的 实现 ， 也 有 支持 Windows 的 实现 ， 其 中 还 包 
括 来 自 Boost 的 实现 (http://www.boost.org/doc/libs/1_60_0/doc/html/mpi.html)， 但 是 这 
些 实现 并 非 都 完整 地 履 盖 了 规范 。 

OpenMP (http://openmp.org) 
OpenMP 是 一 款 用 于 “使 用 C/C++ 和 Fortran 语言 进行 多 平台 共享 内 存 并 行 编程 ”的 
API。 其 用 法 是 开发 人 员 使 用 定义 程序 并 行 行为 的 编译 指令 装饰 C++ 程序 。OpenMP 提 

供 了 一 个 擅长 数值 计算 的 细 粒 度 的 并 发 模型 ， 而 且 它 正在 朝 着 GPU 编程 的 方向 发 展 。 

在 Linux 上 ，GCC 和 Clang 都 支持 OpenMP; 在 Windows 上 Visual C++ 支持 OpenMP。 
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C++ AMP (https://msdn.microsoft.com/en-us/library/hh265137.aspx) 


C++ AMP 是 一 份 关 于 设计 C++ 库 在 GPU 设备 上 进行 并 行 数 据 计算 的 开源 规范 。 








来 自 于 微软 的 版 本 会 被 解析 为 DirectX 11 调用 。 


12.6 ”小结 


。 如 果 没 有 竞争 ， 那 么 一 个 多 线程 C++ 程序 具有 顺序 一 致 性 。 

。 一 个 畅所欲言 的 大 型 设计 社区 认为 显 式 同 步 和 共享 变量 是 一 个 糟糕 的 主意 。 
。 在 临界 区 中 执行 IO 操作 无 法 优化 性 能 。 

。 可 运行 线程 的 数量 应 当 少 于 或 等 于 处 理 器 核心 的 数量 。 

。 理想 的 竞争 一 块 短 临界 区 的 核心 数量 是 两 个 。 























其 中 ， 
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优化 内 存 管理 





效率 就 是 把 已 经 在 做 的 东西 做 得 更 好 。 
一 一 彼得 . 德 鲁 克 (1909 一 2005), 美国 管理 顾问 


内 存 管 理 器 是 C++ 运行 时 系统 中 监视 动态 变量 的 内 存 分 配 情况 的 一 组 函数 和 数据 结构 。 内 
存 管理 器 需要 满足 许多 需求 。 如 何 高 效 地 满足 这 些 需 求 是 一 项 开放 的 研究 挑战 。 在 许多 
C++ 程序 中 ， 内 存 管理 器 的 函数 都 是 热点 函数 。 如 果 它 的 性 能 能 够 得 到 改善 ， 那 么 将 会 提 
高 程序 的 整体 性 能 。 出 于 这 些 原 因 ， 许 多 优化 手段 都 以 内 存 管理 器 为 目标 。 

在 我 看 来 ， 在 进行 性 能 优化 时 首先 应 该 寻找 其 他 能 够 优化 的 地 方 ， 这 可 能 会 比 改 善 内 存 管 
理 器 更 加 有 效果 。 作 为 热点 代码 的 内 存 管 理 器 ， 其 性 能 通常 已 经 被 榨 干 了 。 内 存 管理 最 多 
只 是 影响 程序 整体 运行 时 间 的 诸多 因素 中 的 一 个 。 就 算是 能 够 将 内 存 管理 的 开销 降低 到 接 
近 于 0， 阿 姆 达尔 定律 也 限制 了 开发 人 员 能 够 获得 的 性 能 改善 效果 。 对 大 型 程序 进行 的 研 
究 表明 ， 优 化 内 存 管理 的 性 能 改善 效果 范围 是 从 微不足道 至 大 约 30%。 

C++ 内 存 管 理 器 有 大 量 的 API， 是 高 度 可 定制 的 。 尽 管 许多 程序 员 永 远 不 会 使 用 这 些 APL， 
但 它 确 实 提供 了 许多 进行 性 能 优化 的 方法 。 通 过 替换 C 函数 malloc() 和 free()， 能 够 将 
几 种 高 性 能 内 存 管理 器 加 入 到 C++ 中 。 除 此 之 外 ， 开 发 人 员 还 能 够 为 热点 类 和 标准 库容 器 
禁 换 专门 的 内 存 管理 器 。 


13.1 复习 C++ 内 存 管 理 器 API 


6.2 节 中 介绍 了 管理 动态 变量 的 C++ 工具 。 该 工具 包含 一 个 对 内 存 管理 器 的 接口 ， 其 中 有 
new 和 delete 表达 式 、 内 存 管理 函数 以 及 标准 库 分 配器 模板 类 。 
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13.1.1 动态 变量 的 生命 周期 

动态 变量 有 五 个 唯一 的 生命 阶段 。 最 常见 的 new 表达 式 的 各 种 重 载 形 式 执行 分 配 和 放置 生 

命 阶段 。 在 使 用 阶段 后 ，detLete 表达 式 会 执行 销毁 和 释放 阶段 。C++ 提供 了 单独 管理 每 个 

阶段 的 方法 。 

分 配 
程序 要 求 内 存 管理 器 返回 一 个 指向 至 少 包含 指定 数量 未 类 型 化 的 内 存 字 节 的 连续 内 存 
地 址 的 指针 。 如 果 没 有 足够 的 可 用 内 存 ， 那 么 分 配 将 会 失败 。C 语言 的 库 函 数 malloc() 
和 C++ new() 运算 符 函 数 的 各 种 重 载 形 式 参 与 分 配 阶 段 。 

放置 
程序 创建 动态 变量 的 初始 值 ， 将 值 放置 到 被 分 配 的 内 存 中 。 如 果 变 量 是 一 个 类 的 实例 ， 
那么 它 的 构造 函数 之 一 将 会 被 调用 。 如 果 变 量 是 一 个 简单 类 型 ， 那 么 它 可 能 会 被 初始 
化 。 如 果 构 造 函 数 抛 出 异常 ， 那 么 放置 会 失败 ， 需 要 将 被 分 配 的 存储 空间 返回 给 内 存 管 
理 嚣 。new 表达 式 参 与 这 个 阶段 。 



















































































使 用 
程序 从 动态 变量 中 读 取 值 ， 调 用 动态 变量 的 成 员 函 数 并 将 值 写 入 到 动态 变量 中 。 
销毁 
如 果 变 量 是 一 个 类 实例 ， 那 么 程序 会 调用 它 的 析 构 函数 对 动态 变量 执行 最 后 的 操作 。 析 





构 对 动态 变量 而 言 是 一 次 机 会 ， 它 可 以 趁机 返回 持 有 的 所 有 系统 资源 ， 完 成 所 有 清理 工 
作 ， 做 点 儿 交 代 ， 然 后 准备 进入 梦乡 。 如 果 析 构 函 数 抛 出 一 个 在 析 构 函数 体内 不 会 处 理 
的 异常 ， 析 构 会 失败 。 若 发 生 了 这 种 情况 ， 程 序 会 无 条 件 终止 。detete 表达 式 管理 这 
个 阶段 。 显 式 地 调用 变量 的 析 构 函数 能 够 销毁 一 个 变量 但 不 释放 它 的 存储 空间 。 

释放 
程序 将 属于 被 销毁 的 动态 变量 的 存储 空间 返回 给 内 存 管理 器 。C 语言 的 库 函 数 free() 
和 C++ 语言 的 delete() 运算 符 的 各 种 重 载 版 本 参与 释放 阶段 。 


13.1.2 ”内 存 管 理 函 数 分 配 和 释放 内 存 


C++ 提供 了 一 组 内 存 管理 函数 ， 而 不 是 C 中 简单 的 matlloc() 和 free()。 这 些 函 数 提供 了 
在 13.1.3 节 中 讲解 过 的 new 表达 式 的 丰富 行为 。 重 载 new() 运算 符 能 够 为 任意 类 型 的 单 实 
例 分 配 存 储 空间 。 重 载 new[]() 运算 符 能 够 为 任意 类 型 的 数组 分 配 空间 。 当 数组 版 本 和 非 
数组 版 本 的 函数 以 相同 的 方式 进行 处 理 时 ， 我 将 它们 统一 称 为 new() 运算 符 ， 表 示 还 包括 
一 个 相同 的 new[]() 运算 符 。 

1. new() 运 算 符 实现 分 配 

new 表达 式 会 调用 new() 运算 符 的 若干 版 本 之 一 来 获得 动态 变量 的 内 存 ， 或 是 调用 new[]() 
运算 符 获 得 动态 数组 的 内 存 。C++ 提供 了 这 些 运算 符 的 默认 实现 。 它 还 隐 式 地 声明 了 这 些 
运算 符 ， 这 样 程序 无 需 包 含 <new> 头 文件 即 可 调用 它们 。 当 有 需要 时 ， 我 们 还 能 够 在 程序 
中 重 写 这 些 默认 实现 来 实现 自己 的 运算 符 。 

new() 运算 符 对 于 性 能 优化 非常 重要 ， 因 为 默认 内 存 管 理 器 的 开销 是 昂贵 的 。 在 有 些 情况 
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下 ， 通 过 实现 专门 的 运算 符 能 够 让 程序 非常 高 效 地 分 配 内 存 。 

C++ 定义 了 new() 运算 符 的 几 种 重 载 形 式 。 

void* ::operator new(size 七 ) 
默认 情况 下 ， 所 有 动态 分 配 的 变量 的 内 存 都 是 通过 调用 new() 运算 符 的 带 有 指定 要 分 配 
内 存 的 最 小 字 节 数 参数 的 重 载 形 式 分 配 的 。 当 没有 足够 多 的 内 存 能 够 满足 请 求 时 ， 这 种 
重 载 形 式 的 标准 库 实 现 会 抛 出 std: :bad_alloc 异常 。 
new() 运算 符 的 所 有 其 他 重 载 形式 的 标准 库 实 现 都 会 调用 这 个 重 载 形式 。 通 过 在 任意 
编译 单元 中 提供 一 个 : :operator new(size_t) 的 定义 ， 程 序 能 够 全 局 地 改变 内 存 的 分 
配方 式 .。 
尽管 C++ 标准 并 没有 规定 这 是 必需 的 ， 但 是 标准 库 中 的 这 个 重 载 版 本 的 实现 通常 都 会 
调用 malloc()。 























void* ::operator new[](size t) 
程序 用 new() 运算 符 的 这 个 重 载 版 本 为 数组 分 配 内 存 。 在 标准 库 中 ， 该 版 本 的 实现 会 调 


用 ::operator new(size_t)。 





void* ::operator new(size t, const std: :nothrow_tag&) 

Foo* p = new(std::nothrow) Foo(123); 这 样 的 new 表达 式 会 调用 new() 运算 符 的 不 抛 
出 异常 的 重 载 形式 。 如 果 没 有 可 用 内 存 ， 该 版 本 会 返回 nuLLptr， 而 不 会 抛 出 std: :bad_ 
alloc 异常 。 在 标准 库 中 ， 该 版 本 的 实现 会 调用 new(size_t) 运算 符 并 捕捉 所 有 可 能 会 
抛 出 的 异常 。 
void* ::operator new[](size t, const std::nothrow_tag&) 


这 是 new() 运算 符 的 无 异常 抛 出 版 本 的 数组 版 本 。 


new 表达 式 能 够 调用 第 一 个 参数 是 size_t 类 型 的 、 具 有 任意 函数 签名 的 new() 运算 符 。 所 
有 这 些 new() 运算 符 的 重 载 形式 都 被 称 为 定位 放置 new() 运算 符 。new 表达 式 通 过 将 定位 
放置 new() 运算 符 的 参数 类 型 与 可 用 的 new() 运算 符 国 数 签 名 进行 匹配 ， 来 确定 使 用 哪个 
国 数 。 
标准 库 提 供 并 隐 式 声明 了 定位 放置 new() 运算 符 的 两 种 重 载 版 本 。 它 们 不 会 分 配 内 存 ( 动 
态 变量 生命 周期 的 第 一 阶段 )， 取 而 代 之 的 是 接收 一 个 额外 的 参数 ， 这 个 参数 是 一 个 指向 
程序 所 分 配 的 内 存 的 指针 。 两 种 重 载 版 本 如 下 。 
void* ::operator new(size t, void*) 
这 是 用 于 单个 变量 的 定位 放置 new() 运算 符 。 它 接收 一 个 指向 内 存 的 指针 作为 它 的 第 二 
个 参数 ， 并 简单 地 返回 该 指针 。 
void* ::operator new[](size t, void*) 
这 是 数组 版 本 的 定位 放置 new() 运算 符 。 它 接收 一 个 指向 内 存 的 指针 作为 它 的 第 二 个 参 
数 并 返回 该 指针 。 
这 两 个 定位 放置 new() 运算 符 的 重 载 会 被 定位 放置 new 表达 式 new(p) 类 型 调用 ， 其 中 p 是 
指向 有 效 存储 空间 的 指针 。 根 据 C++ 标准 ， 这 些 重 载 是 不 能 被 砍 换 为 开发 人 员 自 己 的 代码 
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的 。 如 果 替 换 它 们 ， 而 且 替 换 后 的 代码 除 返 回 它 的 指针 参数 以 外 ， 还 做 了 其 他 事情 ， 那 么 
许多 标准 库 代码 都 会 停止 工作 。 牢 记 这 一 点 非常 重要 ， 因 为 有 些 C++ 编译 器 不 会 强制 禁止 
替换 这 些 重 载 版 本 ， 这 也 就 意味 着 它们 是 可 以 被 输出 诊断 信息 的 代码 等 替换 掉 的 。 

除了 以 上 列举 的 两 个 定位 放置 new() 运算 符 的 重 载 版 本 外 ， 其 他 定位 放置 new() 运算 符 的 
重 载 版 本 在 C++ 中 没有 明确 的 意义 ， 开 发 人 员 可 以 将 它们 用 于 任意 用 途 。 


2. delete() 运 算 符 释 放 被 分 配 的 内 存 
delete 表达 式 会 调用 delete() 运算 符 ， 将 分 配给 动态 变量 的 内 存 返回 给 运行 时 系统 ， 调 用 
delete[]() 运算 符 将 分 配给 动态 数组 的 内 存 返 回 给 运行 时 系统 。 


new 运算 符 和 delete 运算 符 共 同 工 作 ， 分 配 和 释放 内 存 。 如 果 一 个 程序 定义 了 new() 运算 
符 来 从 一 个 特殊 的 内 存 池 中 或 是 以 一 种 特别 的 方式 分 配 内 存 ， 它 也 必须 在 相同 的 作用 域内 
相应 地 定义 一 个 delete() 运算 符 ， 将 所 分 配 的 内 存 返 回 给 内 存 池 ， 否 则 delete() 运算 符 
的 行为 就 是 未 定义 的 。 

3. C 语 言 库 中 的 内 存 管理 函数 

为 了 确保 与 C 程序 的 兼容 性 ，C++ 提供 了 C 语言 库 函数 malloc()、calloc() 和 realloc() 
来 分 配 内 存 ， 以 及 free() 函数 来 返回 不 再 需要 的 内 存 。 


void* malloc(size_t size) 实现 了 一 个 动态 变量 生命 周期 的 分 配 阶 段 ， 它 会 返回 一 个 指向 
可 以 存储 size 字 节 大 小 的 存储 空间 的 指针 ， 如 果 没 有 可 用 存储 空间 则 会 返回 nuLLptr。 


void free(void* p) 实现 了 一 个 动态 变量 生命 周期 的 释放 阶段 ， 它 会 将 p 所 指向 的 存储 空 
间 返 回 给 内 存 管理 器 。 


void* calloc(size t count，size_t size) 实现 了 一 个 动态 数组 生命 周期 的 分 配 阶 段 。 它 
会 执行 一 个 简单 的 计算 来 算出 含有 count 个 大 小 为 size 的 元 素 的 数组 的 字 节 长 度 ， 并 使 用 
这 个 值 调用 malloc()。 


void* realloc(void* p，size_t size) 可 以 改变 一 块 内 存 的 大 小 ， 如 果 有 需要 会 将 内 存 块 
移动 到 一 个 新 的 存储 空间 中 去 。 旧 的 内 存 块 中 的 内 容 将 会 被 复制 到 新 的 存储 块 中 ， 被 复制 
的 内 容 的 大 小 是 新 旧 两 块 内 存 块 大 小 中 的 较 小 值 。 必 须 谨 慎 使 用 realloc()。 有 时 它 会 移 
动 参数 所 指向 的 内 存 块 并 删除 旧 的 内 存 块 。 如 果 它 这 么 做 了 ， 指 向 旧 内 存 块 的 指针 将 变 为 
无 效 。 有 时 它 会 重用 现 有 的 内 存 块 ， 而 这 个 内 存 块 可 能 会 比 所 请 求 的 大 小 大 。 


根据 C++ 标准 ，mattoc() 和 free() 作用 于 一 块 称 为 “ 堆 ”(heap) 的 内 存 区 域 上 ， 而 
new() 运算 符 和 delete() 运算 符 的 重 载 版 本 则 作用 于 称 为 “自由 存储 区 ”(free store) 的 
内 存 区 域 上 。C++ 标准 中 这 种 严谨 的 定义 能 够 让 库 开 发 人 员 实 现 两 套 不 同 的 函数 。 也 就 
是 说 ， 在 C 和 C++ 中 内 存 管理 的 需求 是 相似 的 。 只 是 对 于 一 个 编译 器 来 说 ， 有 两 套 并 
行 但 不 同 的 实现 是 不 合理 的 。 在 我 所 知道 的 所 有 标准 库 实现 中 ，new() 运算 符 都 会 调用 
malloc() 来 进行 实际 的 内 存 分 配 。 通 过 替换 malloc() 和 free() 函数 ， 一 个 程序 能 够 全 局 
地 改变 管理 内 存 的 方式 。 
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13.1.3 new 表达 式 构造 动态 变量 


C++ 程序 使 用 new 表达 式 请 求 创建 一 个 动态 变量 或 是 动态 数组 。new 表达 式 包 含 关 键 字 
new， 紧 接着 是 一 个 类 型 ， 一 个 指向 new 表达 式 返 回 的 地 址 的 指针 。new 表达 式 还 有 一 个 用 
于 初始 化 变量 值 或 是 每 个 数组 元 素 的 初始 化 列表 。new 表达 式 会 返回 一 个 指向 被 完全 初始 
化 的 C++ 变量 或 数组 的 有 类 型 指针 ， 而 不 是 指向 C++ new() 运算 符 或 是 C 语言 中 内 存 管理 
函数 返回 的 未 初始 化 的 存储 空间 的 简单 空 指针 。 


new 表达 式 的 声明 看 起 来 如 下 : 

‘optiona New (placement-params)eiona (type) initializer,eional 
或 是 : 

: :optiona New (placement-params)otion type initializeroptional 


这 两 条 语句 的 不 同 在 于 包围 type 的 圆 括号 ， 有 了 时 候 编译 器 需要 借助 它 根据 复杂 的 type 的 
开始 识别 出 placement-params 的 末尾 ， 或 是 根据 初始 化 列表 的 开始 辨别 出 type 的 末尾 。 
包括 cppreference (http://en.cppreference.com/w/cpp/language/new) 在 内 的 网 络 资源 上 有 更 
多 关于 new 表达 式 的 所 有 声明 语法 的 信息 。 

如 果 type 的 声明 是 一 个 数组 , 我 们 可 以 使 用 一 个 非常 量 表达 式 来 定义 最 高 (也 就 是 最 左 ) “ 
数组 维度 ， 这 样 就 可 以 在 运行 时 指定 数组 的 大 小 。 这 是 在 C++ 中 唯一 能 够 声明 动态 大 小 数 
组 的 方式 。 

new 表达 式 返 回 一 个 指向 动态 变量 或 是 动态 数组 的 第 一 个 元 素 的 右 值 指针 (这 个 指针 是 右 
值 这 一 点 非常 重要 ， 请 参见 6.6 节 )。 


所 有 版 本 的 new 表达 式 都 不 只 是 调用 new() 运算 符 函 数 来 分 配 存储 空间 。 如 果 调 用 new() 
运算 符 成 功 了 ， 那 么 非 数 组 版 本 的 new 表达 式 将 会 构造 一 个 类 型 对 象 。 如 果 构 造 国 数 抛 
出 了 蜡 常 ， 那 么 它 的 成 员 和 基 类 都 会 被 销毁 ， 被 分 配 的 内 存 也 会 通过 调用 与 分 配 内 存 的 
new() 运算 符 函 数 具 有 相同 函数 签名 的 delete() 运算 符 返 回 给 内 存 管理 器 。 如 果 没 有 匹配 
的 delete() 运算 符 ， 那 么 内 存 就 不 会 被 返回 给 内 存 管理 器 ， 导 致 发 生 内 存 泄漏 。new 表 
达 式 会 返回 指针 ， 重 新 抛 出 捕捉 到 的 异常 〈 抛 出 异常 版 本 的 new 表达 式 ) 或 返回 nullptr 
(不 抛 出 异常 版 本 的 new 表达 式 )。 


数组 版 本 的 new 表达 式 的 工作 方式 是 相同 的 ， 但 是 更 加 复杂 ， 因 为 在 构造 函数 的 多 次 调用 
中 可 能 会 有 一 次 抛 出 异常 ， 这 时 就 需要 销毁 之 前 所 有 成 功 构 造 出 的 实例 ， 并 在 返回 或 重新 
抛 出 异常 之 前 将 内 存 返 回 到 自由 存储 区 。 
为 什么 会 有 用 于 数组 和 用 于 实例 的 两 种 new 表达 式 呢 ? 数组 版 本 的 new 表达 式 会 分 配 存储 
数组 元 素数 量 的 存储 空间 以 及 分 配给 数组 自身 的 存储 空间 ， 而 数组 版 本 的 delete 表达 式 无 
需 提供 这 个 值 。 但 对 于 单 实例 来 说 则 无 需 这 种 额外 的 间接 开销 。C++ 的 这 种 行为 是 在 内 存 
远 比 如 今 宝贵 的 年 代 就 设计 好 了 的 。 




































































































































































注 6: 在 C++ 中 , 一 个 n 维 的 数组 是 一 个 n-1 维 数组 的 数组 。 因 此 ， 最 左 维度 就 是 最 高 维度 。 
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1. 不 抛 出 异常 的 new 表 达 式 

如 果 placement-params 中 包含 有 关键 字 std: :nothrow， 那 么 new 表达 式 不 会 抛 出 std: :bad_ 
aLLoc。 它 不 会 尝试 构造 对 象 ， 而 是 直接 返回 nuLLptr。 

历史 上 ， 曾 经 有 一 段 时 间 ， 许 多 C++ 编译 器 都 没有 很 好 地 实现 异常 处 理 。 为 这 些 老 式 编译 
器 所 编写 的 代码 或 是 从 C 移植 过 来 的 代码 ， 需 要 一 个 在 内 存 不 足 时 能 返回 null 的 内 存 分 
配 国 数 。 

在 有 些 工 业 领 域 中 一 一 特别 是 航天 工业 和 汽车 工业 中 一 一 有 强制 编码 标准 ， 它 们 禁止 抛 出 
异常 。 而 new 表达 式 都 是 定义 为 在 发 生 错 误 时 会 抛 出 异常 的 。 因 此 就 有 了 对 不 抛 出 异常 的 
new 表达 式 的 需求 。 

通常 认为 异常 处 理会 降低 效率 ， 因 此 不 抛 出 异常 的 new 表达 式 应 该 会 更 快 。 不 过 ， 现 代 
C++ 编译 器 实现 的 异常 处 理 仅 在 异常 被 抛 出 后 才 会 发 生 非常 小 的 运行 时 开销 ， 因 此 这 条 常 
理 的 真相 可 能 取决 于 编译 器 。 请 参见 7.4.3 市 ， 了 解 更 多 关于 异常 处 理 的 性 能 开销 的 讨论 。 


2. 定位 放置 new 表 达 式 执行 定位 放置 处 理 而 不 进行 分 配 

如 果 placement-params 是 一 个 指向 已 经 存在 的 有 效 存储 空间 的 指针 ， 那 么 new 表达 式 不 会 
调用 内 存 管理 器 ， 而 只 是 简单 地 将 type 放置 在 指针 所 指向 的 内 存 地 址 ， 而 且 这 块 内 存 必 须 
能 够 容 下 type。 定 位 放置 new 表达 式 的 用 法 如 下 : 

char mem[1000]; 


CLass Foo {...}; 
Foo* foo_p = new (mem) Foo(123); 


在 这 段 示 例 代 码 中 ，Foo 类 的 一 个 实例 被 放置 在 了 数组 men 的 顶部 。 定 位 放置 new 表达 式 
调用 类 的 构造 函数 对 类 的 实例 进行 初始 化 。 对 于 基本 类 型 ， 定 位 放置 new 表达 式 会 执行 初 
始 化 ， 而 不 是 调用 构造 函数 。 


由 于 定位 放置 new 表达 式 并 不 分 配 存 储 空间 ， 因 此 它 没 有 相应 的 定位 放置 delete 表达 式 。 
当 men 超出 作用 域 后 ， 被 定位 放置 new 表达 式 放 置 在 men 顶部 的 Foo 的 实例 不 会 被 自动 地 
销毁 。 开 发 人 员 需 要 显 式 地 调用 类 的 析 构 函数 来 销毁 定位 放置 new 表达 式 创建 的 实例 。 事 
实 上 ， 如 果 Foo 的 实例 被 放 在 了 为 Bar 的 实例 所 分 配 的 存储 空间 中 ， 那 么 Bar 的 析 构 函数 
将 会 被 调用 ， 这 会 带 来 未 定义 的 灾难 性 的 结果 。 因 此 ， 必 须 在 new() 运算 符 返回 的 内 存 或 
是 或 其 他 基本 数据 类 型 的 数组 占用 的 内 存 上 使 用 定位 放置 new 表达 式 。 


在 标准 库容 器 的 ALLocator 模板 参数 中 使 用 了 定位 放置 new 表达 式 ， 它 必须 将 类 的 实例 放 
置 在 之 前 已 经 分 配 但 还 未 使 用 的 内 存 中 。 请 参见 13.4 节 获 取 详 细 信息 。 


3. 自 定 义 定位 放置 new 表 达 式 
如 果 placement-params 是 std: :nothrow 或 单个 指针 以 外 的 其 他 东西 ， 那 么 这 个 new 表达 式 
就 被 称 为 自 定 义 定位 放置 new 表达 式 。C++ 没有 对 自 定义 定位 放置 new 表达 式 强 加 任何 意 
站 这 可 以 让 开发 人 员 以 一 种 未 受 指 定 的 方式 分 配 存储 空间 。 自 定义 定位 放置 new 表达 式 

寻找 这 样 的 new() 运算 符 或 new[]() 运算 符 的 重 载 版 本 : 其 第 一 个 参数 是 size_t 类 型 ， 
如 果 动 态 对 象 的 构造 国 数 抛 出 了 异常 ， 那 么 自 
定义 定位 放置 new 表达 式 会 寻找 这 样 的 delete() 运算 符 或 detete[]() 运算 符 的 重 载 版 本 : 
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第 一 个 参数 是 void*， 接 下 来 的 参数 匹配 表达 式 列表 中 的 类 型 。 


当 程 序 需 要 建立 多 种 创建 动态 变量 或 是 传递 参数 用 于 内 存 管理 器 诊断 的 机 制 时 ， 自 定义 定 
位 放置 new 表达 式 非 常 有 用 。 

自 定 义 定 位 放置 new 表达 式 也 有 一 个 问题 ， 那 就 是 无 法 指定 匹配 的 “ 自 定 义 定 位 放置 
delete 表达 "。 因 此 ， 尽 管 当 在 new 表达 中 对 象 构造 函数 抛 出 了 异常 时 ，delete() 运算 符 
的 多 个 放置 重 载 版 本 会 被 调用 ， 但 delete 表达 式 无 法 调用 这 些 重 载 版 本 。 这 给 开发 人 员 出 
了 一 道 这 题 ， 因 为 根据 标准 ， 如 果 delete() 运算 符 不 匹配 分 配 动态 变量 的 new() 运算 符 ， 
那么 其 行为 就 是 未 定义 的 。 我 们 必须 在 程序 中 声明 匹配 的 定位 放置 delete() 运算 符 ， 因 为 
当 对 象 构造 函数 抛 出 异常 时 它 会 在 new 表达 中 被 调用 。 只 是 我 们 没有 办 法 通过 delete 表达 
式 调 用 它 。 不 过 ， 标 准 委员 会 正 考 虑 在 未 来 版 本 的 C++ 标准 中 解决 这 个 问题 。 


最 简单 的 解决 方法 是 注意 到 ， 如 果 新 潮 的 定位 放置 new() 运算 符 与 老式 的 detete() 运算 
符 是 可 兼容 的 ， 那 么 其 行为 尽管 是 未 定义 的 ， 却 是 可 预测 的 。 另 外 一 种 解决 方法 是 注意 到 
delete 表达 式 并 非 非常 复杂 或 是 非常 神奇 ， 如 果 有 需要 我 们 可 以 编写 非 成 员 函 数 禁 代 它 。 
4. 类 专用 new() 运 算 符 允许 我 们 精准 掌握 内 存 分 配 

new 表达 式 在 要 创建 的 类 型 范围 中 查找 new() 运算 符 。 因 此 ， 一 个 类 能 够 通过 提供 这 些 运 
算 的 实现 来 精准 地 掌握 对 它 自己 的 内 存 分 配 。 如 果 在 类 中 没有 定义 类 专用 new() 运算 符 ， 
那么 全 局 new() 运算 符 将 会 被 使 用 。 要 想 使 用 全 局 new() 运算 符 替 代 类 专用 new() 运算 符 ， 
程序 员 需 要 如 下 这 样 在 new 表达 式 中 指定 全 局 作用 域 运 算 符 :: 


Foo* foo p = ::new Foo(123); 


只 有 为 定义 了 这 种 运算 符 的 类 实例 分 配 存储 空间 时 ， 类 专用 new() 运算 符 才 会 被 调用 。 当 
在 类 的 成 员 函 数 中 用 new 表达 式 生 成 其 他 类 的 实例 时 ， 如 果 有 为 其 他 类 定义 的 new() 运算 
符 ， 那 么 就 会 使 用 该 运算 符 ， 否 则 就 会 调用 默认 的 全 局 new() 运算 符 。 


类 专用 new() 运算 符 是 高 效 的 ， 因 为 它 为 大 小 固定 的 对 象 分 配 内 存 。 因 此 ， 第 一 个 未 使 用 
的 内 存 块 总 是 可 用 的 。 如 果 类 没有 被 用 在 多 线程 中 ， 那 么 类 专用 new() 运算 符 就 可 以 免 去 
确保 类 的 内 部 数据 结构 是 线程 安全 的 这 项 开销 。 


类 专用 new() 运算 符 需要 定义 为 类 的 静态 成 员 函 数 。 这 是 有 原因 的 ， 因 为 new() 运算 符 会 
为 每 个 实例 分 配 存储 空间 。 


如 果 一 个 类 实现 了 自 定义 定位 放置 new() 运算 符 ， 那 么 它 必须 实现 相应 的 delete() 运 
算 符 ， 否 则 全 局 detete() 运算 符 就 会 被 调用 ， 这 会 带 来 未 定义 的 而 且 通 常 都 不 希望 看 
到 的 结果 。 


13.1.4 ”delete 表 达 式 处 置 动态 变量 


程序 使 用 delete 表达 式 将 动态 变量 所 使 用 的 内 存 返 回 给 内 存 管 理 器 。delete 表达 式 会 处 
理 动 态 变 量 生命 周期 的 最 后 两 个 阶段 : 销毁 变量 并 释放 它 之 前 占用 的 内 存 。delete 表达 式 
中 含有 delete 关键 字 ， 紧 接着 是 一 个 会 生成 一 个 指向 待 删除 变量 的 指针 的 表达 式 。delete 
表达 式 的 语法 如 下 : 
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: :optionol deLete expression 


或 


: :optionol delete [] expression 


delete 表达 式 的 第 一 种 形式 用 于 删除 使 用 new 表达 式 创 建 的 动态 变量 ， 第 二 种 形式 用 于 删 
除 使 用 new[] 表达 式 创 建 的 动态 数组 。 普 通 变量 和 数组 的 delete 表达 式 之 所 以 是 分 开 的 ， 
是 因为 可 能 需要 以 与 创建 普通 变量 不 同 的 方式 来 创建 数组 。 多 数 实现 都 会 为 已 分 配 的 数组 
元 素 分 配额 外 的 存储 空间 ， 这 样 析 构 函数 的 调用 次 数 就 是 正确 的 。 使 用 错误 版 本 的 delete 
表达 式 来 删除 动态 变量 ， 会 招致 在 C++ 标准 中 被 称 为 “未 定义 行为 ”的 灾难 。 


13.1.5 ” 显 式 析 构 函数 调用 销毁 动态 变量 

通过 显 式 地 调用 析 构 函数 ， 而 不 是 使 用 delete 表达 式 ， 能 够 只 执行 动态 变量 的 析 构 ， 但 不 

释放 它 的 存储 空间 。 析 构 函 数 的 名 字 就 是 在 类 的 名 字 前 加 上 波浪 符号 (~) : 
foo_p->~Foo(); 


在 标准 库 的 ALLocator 模板 中 与 定位 放置 new 表达 式 相 同 的 地 方 也 发 生 了 显 式 析 构 函数 调 
用 ， 在 那里 销毁 和 释放 内 存 是 分 开 进 行 的 。 
没有 显 式 的 构造 函数 调用 ， 难 道 有 吗 ? 
在 C++ 标准 的 13.1 节 中 写 道 “ 构 造 函 数 没 有 名 字 ”， 因 此 程序 无 法 直接 调用 构造 函数 ， 它 
是 通过 new 表达 式 被 调用 的 。 在 C++ 标准 中 关于 构造 函数 的 说 明 是 很 及 烦 的 ， 因 为 在 构造 
函数 被 调用 前 ， 类 实例 占用 的 内 存 是 未 初始 化 的 存储 空间 ， 在 构造 函数 被 调用 之 后 才 是 类 
实例 的 存储 空间 。 在 标准 中 很 难 解释 清楚 这 种 神奇 的 转换 。 
不 过 显 式 调用 构造 函数 并 不 是 一 件 困难 的 事情 。 如 果 程 序 希 望 在 一 个 已 经 构造 完成 的 类 实 
例 上 显 式 调用 构造 函数 ， 简 单 地 使 用 定位 放置 new 表达 式 即 可 : 

class Blah { 


public: 
Blah() {...} 




































































用 


Blah* b = new char[sizeof(BLah)]; 
Blah myBlah; 


new (b) Blah; 
new (&myBlah) Blah; 


当然 ， 链 接 器 知道 Blah 的 构造 函数 的 名 字 就 是 Blah: :Blah()。 在 Visual C++ 中 ,语句 
b->Blah: :Blah(); 

能 够 成 功 编译 通过 并 调用 Blah 的 构造 国 数 。 这 是 一 种 编码 妃 惧 ， 它 使 得 这 本 书 成 为 第 一 批 

哥 特 式 的 C++ 书籍 之 一 。Linux 上 的 C++ 编译 器 GCC 更 加 符合 标准 一 点 ， 它 会 提供 一 条 

错误 消息 ， 提 示 定 位 放置 new 表达 式 会 调用 构造 函数 。 
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13.2 高 性 能 内 存 管理 器 


默认 情况 下 ， 所 有 申请 存储 空间 的 请 求 都 会 经 过 : :operator new()， 释放 存储 空间 的 请 求 
都 会 经 过 : :operator deLete()。 这 些 国 数 形成 了 C++ 的 默认 内 存 管 理 器 。 默 认 的 C++ 内 




















存 管理 器 必须 满足 许多 需求 。 
。 它 必须 足够 高 效 ， 因 此 它 非常 有 可 能 成 为 热点 代码 。 


。 它 必 须 能 够 在 多 线程 程序 中 正常 工作 ,访问 默认 内 存 管 理 器 中 的 数据 结构 必须 被 序列 化 。 





。 它 必须 能 够 高 效 地 分 配 许多 相同 大 小 的 对 象 〈 例 如 链表 节点 )。 
。 它 必须 能 够 高 效 地 分 配 许 多 不 同 大 小 的 对 象 例如 字符 串 )。 








。 它 必须 既 能 够 分 配 非常 大 的 数据 结构 (IO 缓冲 区 ， 含 有数 百 万 个 整数 值 的 数组 )， 也 能 





够 分 配 非 常 小 的 数据 结构 (例如 一 个 指针 )。 


。 为 了 使 性 能 最 大 化 , 它 必 须 至 少 知道 较 大 内 存 块 的 指针 的 对 齐 边界 、 缓存 行 和 虚拟 内 存 页 。 


。 它 的 运行 时 性 能 不 能 随 着 时 间 而 降低 。 
。 它 必须 能 够 高 效 地 复 用 返回 给 它 的 内 存 。 




















让 C++ 内 存 管理 器 满足 如 此 多 的 需求 是 一 项 开放 且 在 不 断 变化 的 挑战 ， 关 于 它 的 学 术 研 究 
有 很 多 ， 编 译 器 厂商 也 在 你 追 我 在 ， 和 争取 实现 最 先进 的 内 存 管理 器 。 在 某 些 情况 下 ， 内 存 









































管理 器 也 可 能 不 需要 满足 所 有 这 些 要 求 。 这 些 都 为 开发 人 员 提 供 了 性 能 优化 的 机 会 。 








大 多 数 C++ 编译 器 所 提供 的 : :operator new() 都 是 C 语言 的 malloc() 函数 的 简单 包装 器 。 


在 早期 的 C++ 中 ， 这 些 malloc() 函数 的 实现 只 是 为 了 满足 C 程序 分 配 一 些 动 态 缓冲 











区 的 





简单 需求 ， 而 不 是 上 述 的 C++ 程序 的 那 一 长 串 需求 。 用 编译 器 厂商 提供 的 简单 的 malloc() 
替代 复杂 的 内 存 管理 喜 曾 经 是 一 种 非常 成 功 的 性 能 优化 技巧 ， 开 发 人 员 只 要 掌握 这 一 个 技 











巧 就 能 成 为 性 能 优化 专家 。 














有 多 种 或 多 或 少 自 包含 的 内 存 管理 器 库 声 称 它 们 相对 于 默认 内 存 管理 器 有 着 显著 的 ; 














性 能 


优势 。 如 果 一 个 程序 使 用 了 包括 字符 串 和 标准 容器 在 内 的 很 多 动态 变量 ， 那 么 用 这 些 
malloc() 标 代 内 存 管理 器 非常 有 效 ， 只 需要 付出 更 换 链接 器 的 代价 就 能 够 提升 代码 中 所 有 
地 方 的 性 能 ， 而 且 无 需 进行 元 长 乏味 的 性 能 分 析 。 但 是 尽管 这 些 最 先进 的 内 存 管理 器 有 着 












































非常 杰出 的 性 能 ， 但 是 我 们 仍然 有 理由 不 去 贸然 地 吹 趴 它们 所 能 带 来 的 改变 。 














。 尽管 最 先进 的 内 存 管 理 器 向 我 们 展示 了 相 比 于 原生 的 mnattoc() 实现 它们 有 显著 的 性 能 改 
善 ,， 但 是 厂商 往往 没有 明确 指出 性 能 测量 的 基准 是 谁 ， 它 其 至 可 能 只 是 一 个 假想 的 稻草 
人 。 有 传闻 说 ，Windows 和 Linux 最 近 都 提出 将 内 存 管理 喜 升 级 为 最 先进 的 内 存 管 理 器 。 















































因此 , 自 Linux 3.7 和 Windows7 以 后 ,更 换 内 存 管理 器 能 够 带 来 的 性 能 提升 几乎 就 没有 了 。 


。 只 有 在 分 配 和 释放 动态 变量 的 存储 空间 占据 了 程序 运行 时 间 的 绝 大 部 分 时 ， 更 换 一 个 更 
快 的 内 存 管理 器 才 会 对 性 能 提升 有 所 帮助 。 即 使 一 个 程序 为 一 个 有 无 数 节 点 的 数据 结构 
分 配 了 内 存 ,但 是 如 果 该 数据 结构 的 生命 周期 很 长 ,那么 根据 阿 姆 达尔 定律 〈 请 参见 3.1.4 
节 )， 改 善 分 配 内 存 的 性 能 对 整体 性 能 的 影响 很 小 。 对 几 个 大 型 开源 程序 的 研究 表明 ， 

















尽管 新 更 换 的 内 存 管理 器 自身 的 运行 速度 可 能 比 默认 内 存 管理 器 快 3 至 10 倍 ， 但 是 程 


序 的 整体 性 最 多 只 能 提升 30%。 


。 无 论 分 配器 的 性 能 如 何 ， 通 过 使 用 第 6 章 中 讲解 的 方法 减少 对 内 存 管 理 器 的 调用 次 数 都 


能 带 来 性 能 提升 ， 而 且 使 用 分 析 器 进行 分 析 时 都 会 将 分 配器 识别 为 热点 代码 。 
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。 最 先进 的 内 存 管理 器 可 能 会 使 用 各 种 高 速 缓存 和 未 使 用 的 内 存 块 池 来 提供 性 能 ， 但 其 代 
价 是 显著 地 增加 了 内 存 使 用 量 。 在 硬件 受 限 制 的 环境 中 可 能 无 法 负担 这 些 额外 的 内 存 。 
对 于 老式 的 操作 系统 和 风 入 式 开发 ， 下 面 是 一 些 通 常 都 被 认为 是 malloc() 的 高 性 能 禁 代 品 
的 方法 。 
Hoard (http://www.hoard.org/) 
Hoard 是 一 个 出 自 德 克 萨 斯 大 学 的 多 处 理 器 内 存 分 配器 的 商业 版 本 。 它 声称 比 malloc() 
快 了 3~7 倍 。 需 要 获得 许可 才能 进行 商业 使 用 。 


mtmalloc (http:Wwww.cOt0d0s0.org/archives/7443-Performance-impact-of-the-new-mtmalloc- 


























memory-allocator.html) 
mtmalloc 是 Solaris 上 的 matloc() 的 替代 品 ， 用 于 多 线程 高 工作 负载 。 它 使 用 了 一 种 最 
速 适 配 (fast-fit) 分 配器 。 





ptmalloc (glibc malloc, https://github.com/emeryberger/Malloc-Implementations/tree/master/ 
allocators/ptmalloc/ptmalloc3) 
ptmalloc 是 在 Linux 3.7 及 以 后 的 版 本 中 提供 的 matloc() 的 替代 品 。 它 为 每 个 线程 设置 
了 分 配 区 (arena) 以 减少 在 多 线程 程序 中 的 竞争 。 


TCMalloc (线程 缓存 版 的 malloc()，http://goog-perftools.sourceforge.net/doc/tcmalloc.html) 
TCMalloc (位 于 gperftools 包 中 ) 是 谷歌 提供 的 malloc() 的 替代 品 。 它 具有 专业 化 的 小 
型 对 象 分 配器 和 精心 设计 的 用 于 管理 大 内 存 块 的 自 旋 锁 。 根 据 设 计 人 员 的 说 法 ， 它 比 
glibc 的 malloc() 更 好 。tcmalloc 只 在 Linux 上 进行 过 测试 。 


对 于 小 型 坐 入 式 项 目 ， 实 现 自己 的 内 存 管理 器 并 不 是 不 可 能 的 。 在 互联 网 上 查找 关键 字 
“fast-fit memory allocation” 能 查 出 很 多 资料 ， 开 发 人 员 可 以 参考 这 些 资料 进行 开发 。 我 曾 
经 为 一 个 巾 入 式 项 目 实现 过 一 个 最 速 适 配 内 存 管 理 器 ， 效 果 很 不 错 。 设 计 通 用 多 线程 内 存 
管理 器 是 另外 一 个 足够 写 出 一 本 书 的 主题 。 编 写 内 存 管理 器 的 开发 人 员 都 是 专家 。 程 序 和 
它 所 运行 的 操作 系统 环境 越 复 杂 ， 自 己 编写 的 内 存 管理 器 就 越 难以 实现 高 性 能 和 没有 bug。 


13.3 ”提供 类 专用 内 存 管理 器 


即使 是 最 先进 的 matloc() 也 是 对 创建 优化 机 会 的 妥协 。 我 们 还 能 够 在 类 级 别 重 写 new() 运 
算 符 ( 请 参见 13.1.4 节 )。 当 动态 创建 类 实例 的 代码 被 确定 为 热点 代码 时 ， 通 过 提供 类 专 
用 内 存 管理 器 能 够 改善 程序 性 能 。 

如 果 一 个 类 实现 了 new() 运算 符 ， 那 么 当 为 该 类 申请 内 存 时 就 不 会 调用 全 局 new() 运算 符 ， 
而 是 调用 这 个 new() 运算 符 。 相 比 于 默认 版 本 的 new() 运算 符 ， 我 们 可 以 利用 对 对 象 的 了 
解 在 类 专用 内 存 管理 器 中 编写 更 多 有 利于 提升 性 能 的 处 理 。 所 有 为 某 个 类 的 实例 申请 分 配 
内 存 的 请 求 都 会 申请 相同 的 字 节 大 小 。 编 写 高 效 地 处 理 分 配 相同 大 小 内 存 的 请 求 的 内 存 管 
器 是 很 容易 的 ， 原 因 如 下 。 
。 分 配 固定 大 小 内 存 的 内 存 管理 器 能 够 高 效 地 复 用 被 返回 的 内 存 。 它 们 不 必 担 心 碎片 ， 因 

为 所 有 的 请 求 都 申请 相同 大 小 的 内 存 。 
。 能 够 以 很 少 甚至 零 内 存 间接 开销 的 方式 实现 分 配 固定 大 小 内 存 的 内 存 管理 器 。 
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。 分 配 固定 大 小 内 存 的 内 存 管 理 器 能 够 确保 所 消耗 内 存 总 量 的 上 限 。 











。 在 分 配 固定 大 小 内 存 的 内 存 管理 器 中 ， 分 配 和 释放 内 存 的 函数 都 非常 简单 ， 因 此 它们 会 
被 高 效 地 内 联 ， 而 默认 C++ 内 存 分 配器 中 的 函数 则 无 法 被 内 联 。 它 们 必须 是 函数 调用 ， 





这 样 才能 够 被 开发 人 员 定义 的 重 写 版 本 所 替代 。 出 于 同样 的 原因 ，C 语言 中 的 内 存 管 理 





函数 malloc() 和 free() 也 必须 都 是 普通 函数 。 























。 分 配 固定 大 小 内 存 的 内 存 管理 器 具有 优秀 的 高 速 缓存 行为 。 最 后 一 个 被 释放 的 市 点 可 以 














是 下 一 个 被 分 配 的 节点 。 














许多 开发 人 员 从 来 都 没有 见 到 过 类 专用 内 存 管理 器 。 我 怀疑 这 是 因为 他 们 需要 编写 一 些 部 
件 并 将 它们 串 在 一 起 才能 实现 类 专用 内 存 管理 器 ， 导 致 类 专用 内 存 管理 器 的 学 习 曲线 太 陡 
峭 了 。 即 使 是 在 大 型 程序 中 也 只 有 少数 儿 个 类 能 够 从 这 个 优化 手段 中 受益 。 这 不 是 一 项 需 



































要 在 程序 中 多 次 进行 的 性 能 优化 工作 。 


13.3.1 分 配 固定 大 小 内 存 的 内 存 管 理 器 








代码 清单 13-1 定义 了 一 个 简单 的 分 配 固定 大 小 内 存 块 的 内 存 管理 器 ， 它 会 从 一 个 名 为 “分 
配 区 ”(arena) 的 单独 的 、 静 态 声明 的 存储 空间 块 中 分 配 内 存 块 。 作 为 从 自由 存储 区 分 配 



































内 存 的 一 种 方式 ， 我 们 经 常 在 艇 入 式 工 程 中 看 到 这 种 分 配 固定 大 小 内 存 块 的 内 存 管理 器 。 
fixed_block_memory_manager 非常 简单 : 一 个 单独 的 未 使 用 内 存 块 的 链表 。 这 种 简单 的 设 























计 将 会 在 本 章 中 多 处 被 用 到 ， 因 此 我 们 来 详细 地 看 看 它 。 
代码 清单 13-1 分 配 固定 大 小 内 存 块 的 内 存 管理 器 


template <class Arena> struct fixed_ block memory_manager { 
template <int N> 
fixed_block_memory_manager(char(&a)[N]); 
fixed_block_memory_manager(fixed_block_memory_manager&) 
= delete; 
~fixed_block_memory_manager() = default; 
void operator=(fixed_block_memory_manager&) = delete; 


void* allocate(size 七 ); 
size t block_size() const; 
size t capacity() const; 
void clear(); 

void deallocate(void*); 
bool empty() const; 


private: 
struct free block { 
free_block* next; 


}; 

free_block* free_ ptr_; 
size 七 block_size ; 
Arena arena_; 


}; 


# include "block_mgr.inl" 

















在 代码 清单 13-2 中 定义 的 构造 函数 接收 一 个 C 风格 的 字符 数组 作为 它 的 参数 。 这 个 数组 
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形成 了 分 配 内 存 块 的 分 配 区 。 它 的 构造 函数 是 一 个 以 数组 大 小 作为 模板 参数 的 模板 函数 。 
代码 清单 13-2 ”fixed_block_memory_manager 的 构造 国 数 定义 


template <class Arena> 
template <int N> 
inline fixed_block_memory_manager<Arena> 
::fixed_block_memory_manager(char(&a)[N]) : 
arena_(a), free_ptr_(nullptr), block_size (0) { 
/* empty */ 





现代 C++ 编码 笔记 
为 了 保持 模板 类 定义 简洁 ， 可 以 将 模板 类 成 员 涵 数 定义 在 模板 类 定义 的 外 部 。 我 将 我 
的 成 员 有 函数 的 定义 写 在 后 缓 名 为 .inl [ 即 表示 “内 联 定 义 ”(inline definitions)] 的 文件 
中 。 不 过 ， 当 涵 数 定义 出 现在 模板 类 外 部 时 ， 我们 需要 使 用 一 种 更 宛 长 的 语法 来 帮助 
编译 器 连接 函数 定义 与 模板 类 体 中 的 声明 。 在 上 一 个 例子 中 ， 第 一 行 template <class 
Arena> 声明 了 类 的 模板 参数 。 第 二 行 template <int N> 适用 于 构造 函数 自身 ， 它 是 一 
个 模板 有 函数 。 当 成 员 函 数 定义 出 现在 模板 类 体 的 外 部 时 ， 必 须 明 确 写 明 关 键 字 inLine， 
否则 只 有 当 涵 数 定义 出 现在 类 的 内 部 时 才 会 进行 内 联 。 











代码 清单 13-3 中 的 成 员 函 数 allocate() 会 在 有 可 用 内 存 块 时 ， 将 一 个 内 存 块 弹出 未 使 用 
内 存 块 的 链表 并 返回 它 。 如 果 未 使 用 内 存 块 的 链表 是 空 的 ，allocate() 会 试图 从 分 配 区 管 
理 器 中 获得 一 个 新 的 未 使 用 内 存 块 的 链表 ， 我 会 在 后 面 讲 解 这 一 点 。 如 果 分 配 区 管理 器 没 
有 可 分 配 的 内 存 ， 它 会 返回 nuLLptr， 而 aLLocate() 则 会 抛 出 std: :bad_alloc。 



























































代码 清单 13-3 fixed_block_memory_manager 的 aLLocate() 的 定义 


template <class Arena> 
inline void* fixed_ block_memory_manager<Arena> 
::allocate(size t size) { 
if (empty()) { 


free_ptr_ = reinterpret cast<free_ block*> 
(arena_.allocate(size)); 
block_size_ = size; 


if (empty()) 
throw std::bad_alloc(); 


if (size != block_size ) 

throw std::bad_alloc(); 
auto p = free_ptr_; 
free_ptr_ = free_ptr_->next; 
return p; 


} 
deallocate() 成 员 函 数 非 常 简单 


template <class Arena> 
inline void fixed_ block_memory_manager<Arena> 
::deallocate(void* p) { 


它 会 将 一 个 内 存 块 推 人 到 未 使 用 内 存 块 的 链表 中 : 








o 
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if (p == nullptr) 
return; 
auto fp = reinterpret_cast<free_block*>(p); 
fp->next = free_ptr_; 
free_ptr_ = fp; 
} 


下 面 是 其 他 成 员 函 数 的 定义 。 我 们 使 用 C++11 语法 在 类 定义 中 禁用 了 内 存 管理 器 的 复制 和 
赋值 。 


template <CLass Arena> 
inline size t fixed block memory_manager<Arena> 
::capacity() const { 
return arena_.capacity(); 














} 


template <class Arena> 
inline void fixed_ block_memory_manager<Arena>::clear() { 
free_ptr_ = nullptr; 
arena_.clear(); 


13.3.2 ”内 存 块 分 配 区 


fixed_block_memory_manager 中 唯一 的 复杂 点 在 于 未 使 用 内 存 块 的 链表 是 如 何 被 初始 化 
的 。 这 种 复杂 性 被 考虑 在 单独 的 模板 类 内 部 。 这 里 要 展示 的 实现 方式 称 为 ftxed_arena_ 
controller， 请 参见 代码 清单 13-4。 正 如 这 里 所 用 到 的 一 样 ，arena 表示 一 个 发 生 某 些 活 
动 的 封闭 空间 。block_arena 是 一 个 能 够 被 block_manager 分 配 的 固定 大 小 的 内 存 池 。 


代码 清单 13-4 ”分 配 固定 大 小 内 存 的 内 存 管 理 器 所 使 用 的 内 存 块 分 配 区 


struct fixed_arena_controller { 
template <int N> 
fixed_arena_controller(char(&a)[N]); 
fixed_arena_controller(fixed_arena_controller&) = delete; 
~fixed_arena_controller() = default; 
void operator=(fixed_arena_controller&) = delete; 





























void* allocate(size 七 ) ; 
size t block_size() const; 
size t capacity() const; 
void clear(); 

booL empty() const; 


private: 
void* arena ; 
size t arena_ size ; 
size t block size ; 


和 
fixed_arena_controller 类 的 目的 是 创建 一 个 内 存 块 链表 ， 其 中 所 有 的 内 存 块 的 大 小 都 是 
相同 的 。 这 个 大 小 是 在 第 一 次 调用 allocate() 时 设置 的 。 链 表 中 的 每 个 内 存 块 都 必须 足够 
大 ， 能 够 满足 请 求 的 字 节 数 ， 同 时 还 必须 能 够 存储 一 个 指针 ， 当 该 内 存 块 在 未 使 用 内 存 块 
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的 链表 中 时 这 个 指针 会 被 使 用 。 
构造 函数 模板 函数 接收 来 自 fixed_block_memory_manager 的 分 配 区 数组 ， 保 存 数 组 大 小 和 
一 个 指向 数组 起 始 位 置 的 指针 : 
template <int N> 
inline fixed_arena_controller 
::fixed_arena_controller(char (&a)[N]) : 


arena_(a), arena_size (N), block_size (0) { /* 空 */ 


} 


allocate() 成 员 函 数 是 发 生 分 配 操 作 的 地 方 。 当 未 使 用 内 存 块 的 链表 为 空 时 ， 它 会 被 
fixed_block_memory_manager 的 成 员 国 数 allocate() 调用 ， 这 会 在 第 一 次 分 配 请 求 到 来 时 发 
生 。 


fixed_arena_controller 有 一 个 内 存 块 可 分 配 。 如 果 这 个 内 存 块 已 经 被 使 用 了 ，allocate() 
会 再 次 被 调用 并 且 必 须 返 回 一 个 错误 提示 。 在 这 种 情况 下 错误 提示 是 nuLLtptr。 其 他 种 类 
的 分 配 区 控制 器 可 能 会 通过 调用 : :operator new() 等 将 它们 所 得 到 的 大 内 存 块 分 解 为 小 
块 。 对 于 其 他 分 配 区 控制 器 ， 多 次 调用 allocate() 是 没有 问题 的 。 


当 allocate() 初次 被 调用 时 ， 它 会 设置 内 存 块 大 小 和 容量 。 实 际 创建 未 使 用 内 存 块 的 链表 
是 将 未 类 型 化 的 内 存 字 市 重新 解释 为 类 型 化 指针 的 过 程 。 字 符 数 组 被 解释 为 一 组 端 到 端的 
内 存 块 。 每 个 内 存 块 的 第 一 个 字 节 都 是 一 个 指向 下 一 个 内 存 块 的 指针 。 最 后 一 个 内 存 块 的 
指针 是 nuLLptr。 


fixed_arena_controller 无 法 控制 分 配 区 数组 的 大 小 。 可 能 在 尾部 会 有 数 个 未 使 用 的 字 节 
永远 不 会 被 分 配 。 设 置 未 使 用 内 存 块 指针 的 代码 并 不 优雅 。 它 需要 继续 将 一 种 指针 重新 解 
释 为 另外 一 种 指针 ， 退 出 C++ 类 型 系统 ， 进 入 到 实现 定义 (implementation-defined) 行为 
的 “国度 ”。 不 过 ， 这 是 内 存 管 理 器 都 存在 的 不 可 避免 的 问题 。 


fixed_arena_controller 中 的 分 配 和 释放 代码 很 简单 :在 提供 给 构造 函数 的 存储 空间 上 分 
配 未 使 用 市 点 的 链表 ， 返 回 一 个 指向 链表 第 一 个 元 素 的 指针 。 代 码 如 下 : 


inline void* fixed_arena_controller 
::allocate(size t size) { 
if (!empty()) 
return nuLLptr; // arena 已 经 被 分 配 了 






































block_size_ = std::max(size, sizeof(void*)); 
size t count = capacity(); 


if (count == 0) 
return nuLLptr; // arena 太 小 了 ,甚至 容 不 下 一 个 元 素 








char* p; 

for (p = (char*)arena_; count > 1; --count, p += size) { 
*reinterpret_cast<char**>(p) = p + size; 

} 

*reinterpret_cast<char**>(p) = nullptr; 

return arena_; 
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才 


而 是 fixed_arena_controller 的 其 他 部 分 : 





inline size t fixed arena_ controller::block size() const { 
return block_size ; 


inline size t fixed arena_ controller::capacity() const { 
return block_size_? (arena_size_/ block size ) : 0; 
站 


inline void fixed arena_controller::clear() { 
block_size = 0; 
} 


inline bool fixed arena_controller::empty() const { 
return block size_ == 0; 


13.3.3 添加 一 个 类 专用 new() 运 算 符 


代码 清单 13-5 是 一 个 具有 类 专用 new() 运算 符 和 delete() 运算 符 的 非常 简单 的 类 。 其 中 
还 有 一 个 静态 成 员 变量 mgr_， 它 是 在 13.3.1 节 中 讲解 的 分 配 固定 大 小 内 存 块 的 内 存 管理 
器 。new() 运算 符 和 delete() 运算 符 都 是 内 联 函 数 ， 它 们 会 将 请 求 转发 给 mgr_ 的 成 员 函 数 
allocate() 和 deallocate()。 


代码 清单 13-5 ”具有 类 专用 new() 运算 符 的 类 


class MemMgrTester { 
int contents ; 
public: 
MemMgrTester(int c) : contents_(c) {0} 























static void* operator new(size t s) { 
return mgr_.allocate(s); 


} 


static void operator delete(void* p) { 
mgr_.deallocate(p); 


static fixed_ block_memory_manager<fixed_arena_controller> mgr_; 

}3 
mgr_ 被 声明 为 public， 这 样 我 能 够 通过 调用 mrg_.ctear() 重新 初始 化 未 使 用 内 存 块 的 链 
表 ， 以 方便 编写 性 能 测试 。 如 果 mgr_ 只 在 程序 启动 时 被 初始 化 一 次 ， 之 后 永远 无 需 重新 初 
始 化 ， 那 么 最 好 将 其 声明 为 private 成 员 变 量 。 
能 够 像 这 样 被 重 置 的 内 存 管理 器 被 称 作 内 存 池 管理 器 (pool memory manager) ， 它 所 控制 
的 分 配 区 则 被 称 为 内 存 池 (memory pool) 。 内 存 池 管理 器 非常 适用 于 数据 结构 被 构造 、 使 
用 然后 被 销毁 的 情况 。 如 果 能 够 快速 地 重新 初始 化 整个 内 存 池 ， 那 么 程序 就 能 够 避免 逐 市 
点 地 释放 数据 结构 。 
mgr_ 是 BlockTester 类 的 一 个 静态 成 员 变 量 。 在 程序 中 的 某 个 地 方 ， 也 必须 如 代码 清单 
13-6 这 样 定义 静态 成 员 。 这 段 代码 定义 了 一 个 内 存 分 配 区 以 及 mgr_，mgr_ 的 构造 函数 接收 
这 个 分 配 区 作为 参数 。 
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代码 清单 13-6 ”初始 化 内 存 管 理 器 


char arena[4004] ; 


fixed_block_memory_manager<fixed_arena_controller> 
MemMgrTester::mgr_(arena); 





这 段 代 码 没有 定义 类 专用 new[]() 运算 符 来 分 配 数组 的 存储 空间 。 分 配 固定 大 小 内 存 块 的 














内 存 管 理 器 无 法 工作 于 根据 定义 可 


























元 素 的 数组 之 上 。 如 果 程序 试图 分 配 一 


个 MemMgrTester 数组 ， 那 么 new 表达 式 会 使 用 全 局 new[]() 运算 符 ， 因 为 没有 定义 类 专用 


的 运算 符 。 也 就 是 说 ， 程 序 会 使 用 分 配 
配 存储 空间 ， 使 用 malloc() 为 数组 分 配 存储 空间 。 





固定 大 小 内 存 块 的 内 存 管理 








器 来 为 单独 的 类 实例 分 





13.3.4 ”分 配 固定 大 小 内 存 块 的 内 存 管理 器 的 性 能 


分 配 固定 大 小 内 存 块 的 内 存 管理 器 是 非常 高 效 的 。 
的 ， 而 且 代 码 可 以 内 联 。 但 是 它们 究竟 比 matloc() 快 多 少 呢 ? 


我 做 了 两 项 实验 ， 测 试 了 类 专 月 











由 new() 运算 符 的 性 能 。 


分 配 和 释放 内 存 块 的 函数 的 开销 是 固定 





在 第 一 项 测试 中 ， 我 分 配 了 100 万 
个 BLockTester 的 实例 。 使 用 类 专用 new() 运算 符 和 我 的 分 配 固定 大 小 内 存 块 的 内 存 管理 





器 进行 分 配 耗 时 4 毫秒 ， 使 用 会 调用 malloc() 的 全 局 new() 运算 符 进行 分 配 则 耗 时 64 毫 


秒 。 在 这 项 测试 中 ,分 配 固 




















定 大 小 内 存 块 的 内 存 管理 器 比 matloc() 快 了 15 倍 ， 尽 管 这 个 


结果 可 能 夸大 了 在 实际 程序 中 所 能 获得 的 性 能 改善 效果 。 根 据 阿 姆 达尔 定律 ， 在 内 存 分 配 
之 间 进 行 的 计算 越 多 ， 那 么 提高 内 存 分 配 性 能 所 能 带 来 的 收益 就 越 小 。 

在 第 二 项 实验 中 ， 我 创建 了 一 个 保存 了 100 个 指向 BlockTest 的 指针 的 数组 ， 然 后 我 创建 
了 100 万 个 BlockTest 的 实例 ， 随 机 地 将 它们 赋值 到 数组 的 任意 位 置 并 删除 之 前 在 该 位 置 





的 实例 。 使 用 分 配 固定 大 小 内 存 块 的 内 存 管 型 
的 全 局 内 存 管理 器 则 耗 时 107 读 秒 。 分 配 











完成 这 项 测试 耗 时 25 毫秒 ， 而 使 用 默认 




















固定 大 小 内 存 块 的 内 存 管理 器 快 了 3.3 倍 。 





13.3.5 ”分 配 固定 大 小 内 存 块 的 内 存 管理 器 的 变化 形式 


分 配 国定 大 小 内 存 块 的 内 存 管理 
式 〈 如 果 你 花 些 时 间 在 互联 网 上 查找 内 存 管理 





























你 的 程序 的 版 本 。 





当 未 使 用 内 存 块 的 链表 是 空 的 时 ， 不 是 分 配 一 个 新 的 


器 的 基本 结构 极其 简单 。 你 可 以 尝试 使 用 它 的 各 种 变化 形 
器 就 能 找到 )， 看 看 其 中 是 否 有 更 适合 优化 














国定 大 小 内 存 块 的 分 配 区 ， 而 是 使 


用 mattoc() 分 配 内 存 。 被 释放 的 内 存 块 会 被 缓存 在 未 使 用 内 存 块 的 链表 中 供 快速 复 用 。 


。 可 以 通过 调用 malloc() 或 是 ::new 创建 分 配 区 ， 而 不 使 用 固 
还 可 以 维护 分 配 区 链 ， 这 样 就 不 会 限 币 
maLLoc(), 分 配 国定 大 小 内 存 块 的 内 存 管 到 

。 如 果 类 的 实例 在 使 用 一 段 时 



































定 分 配 区 。 如 果 有 需要 ， 
| 会 分 配 多 少 个 小 内 存 块 了 。 即 使 偶尔 会 调用 
器 仍然 能 够 保持 它 速度 快 和 内 存 碎片 少 的 优势 。 
间 后 会 被 全 部 销毁 ， 那 么 可 以 将 分 配 固定 大 小 内 存 块 的 内 存 














管理 器 作为 内 存 池 使 用 。 内 存 池 会 如 平常 一 样 分 配 内 存 ， 但 是 不 会 释放 内 存 。 当 程序 使 








用 完 类 的 实例 后 ， 





它们 会 通过 重新 初始 化 静态 分 配 区 或 是 将 动态 分 配 的 分 配 区 返回 给 系 


统 内 存 管理 器 立刻 回收 。 但 是 即使 它们 都 被 立即 回收 了 ， 被 分 配 的 内 存 块 仍然 必须 被 通 
过 调用 析 构 函数 删除 。 互 联网 上 的 许多 内 存 池 分 配器 都 忘记 了 这 个 微小 却 重要 的 细 方 。 
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我 们 可 以 设计 一 种 通用 的 内 存 管理 器 来 满足 来 自 另 外 一 个 分 配 区 的 申请 不 同 大 小 内 存 块 的 
请 求 ， 并 返回 不 同 大 小 的 内 存 块 到 另外 一 个 未 使 用 内 存 块 的 链表 中 。 如 果 所 有 请 求 的 大 小 
四 舍 五 入 后 都 变 为 了 2 的 下 一 个 究 ， 那 么 它 就 是 一 个 “最 快 适 配 ” 内 存 管理 器 。 典 型 的 最 
快 适 配 内 存 管理 器 只 分 配 大 小 小 于 某 个 最 大 值 的 对 象 ， 如 果 请 求 的 大 小 大 于 这 个 最 大 值 ， 
它 会 将 请 求 转发 给 默认 内 存 管理 器 。 最 快 适 配 内 存 管理 器 的 代码 太 大 了 ， 本 书 将 不 会 展 
示 ， 读 者 可 以 在 互联 网 上 查 到 这 些 代码 。 
Boost 有 一 个 叫 作 “Pool”(http://www.boost.org/doc/libs/release/libs/pool/) 的 分 配 固定 大 小 
内 存 块 的 内 存 管 理 器 。 


13.3.6” 非 线程 安全 的 内 存 管理 器 是 高 效 的 

如 果 不 用 顾忌 线程 安全 ， 那 么 分 配 固定 大 小 内 存 块 的 内 存 管理 器 还 可 以 更 加 高 效 。 非 线程 
安全 内 存 管理 器 高 效 的 原因 有 两 个 。 第 一 ， 它 们 不 需要 同步 机 制 来 序列 化 临界 区 。 同 步 
的 开销 是 昂贵 的 ， 因 为 每 个 同步 原 语 的 核心 处 都 有 一 个 会 降低 效率 的 内 存 栅栏 (请 参见 
12.1.6 节 和 12.2.7 节 )。 即 使 只 有 一 个 线程 调用 内 存 管理 器 (这 是 一 种 典型 情况 )， 这 些 昂 
贵 的 开销 也 会 降低 性 能 。 

第 二 ， 非 线程 安全 的 内 存 管理 器 之 所 以 高 效 是 因为 它们 不 会 挂 起 在 同步 原 语 上 。 当 一 个 程 
序 有 多 个 线程 调用 内 存 管 理 器 时 ， 线 程 会 将 内 存 管理 器 当 作 一 种 资源 进行 竞争 。 系 统 中 的 
线程 越 多 ， 竞 争 就 越 激 烈 ， 也 就 会 有 更 多 对 分 配器 的 访问 会 序列 化 线程 活动 。 


如 有 果 一 个 类 实现 了 类 专用 内 存 管理 器 ， 即 使 程序 作为 一 个 整体 是 多 线程 的 ， 只 要 某 个 类 只 
在 一 个 线程 中 使 用 ， 那 么 它 就 无 需 等 待 。 相 比 之 下 ， 如 果 该 类 调用 默认 内 存 管理 器 ， 那 么 
即使 在 多 线程 程序 中 某 个 对 象 只 在 一 个 线程 中 被 使 用 ， 也 会 发 生 苋 争 。 


不 仅 如 此 ， 非 线程 安全 的 内 存 管理 器 还 比 线程 安全 的 内 存 管理 器 更 加 容易 编写 ， 因 为 尽量 
使 临界 区 最 小 ， 以 便 让 内 存 管理 器 运行 得 更 高 效 是 一 项 复杂 的 任务 。 


13.4 ” 自 定 义 标准 库 分 配器 


C++ 标准 库 的 容器 类 会 使 用 大 量 的 动态 变量 。 我 们 可 以 在 它们 那里 寻找 优化 机 会 ， 包 括 
13.3.1 市 中 讲解 过 的 自 定义 内 存 管理 器 等 。 

但 是 有 一 个 问题 。 在 std: :List<T> 中 动态 分 配 的 变量 不 是 用 户 提供 的 类 型 T。 它 们 是 像 
listitem<T> 这 样 的 无 形 类 型 ， 不 但 包含 有 效 载 衔 类 型 T， 还 包含 指向 前 向 节点 和 后 疝 节点 
的 指针 。 在 std: :map<K,V> 中 动态 分 配 的 变量 是 另外 一 种 像 treenode<std::pair<const K， 
V>> 这 样 的 隐藏 类 型 。 这 些 模板 类 藏 在 编译 器 提供 的 头 文件 中 。 我 们 无 法 “修改 这 些 类 , 在 
其 中 加 入 类 专用 new() 运算 符 和 delete() 运算 符 。 除 此 之 外 ， 模 板 是 通用 的 。 开 发 人 员 可 
能 只 希望 在 某 个 程序 中 针对 通用 模板 的 部 分 实例 而 非 全 部 实例 改变 内 存 管 理 器 的 行为 。 垃 
运 的 是 ，C++ 模板 提供 了 一 种 定义 每 种 容器 所 使 用 的 内 存 管理 器 的 机 制 。 标 准 库 容器 可 以 











































































































































































































注 7: 噢 ， 你 肯定 认为 “不 ， 你 仍然 能 够 修改 它们 。 你 可 以 进入 /usr/include 并 修改 它们 ”。 但 这 种 修改 方式 
类 似 作 商 。 
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接收 一 个 ALLocator 参数 ， 它 具有 与 类 专用 new() 运算 符 相 同 的 自 定义 内 存 管理 器 的 能 


Allocator 是 一 个 管理 内 存 的 模板 类 。 作 为 被 扩展 的 基础 ， 一 个 分 配器 会 做 三 件 事情 : 从 
内 存 管理 器 中 获取 存储 空间 ， 返 回 存储 空间 给 内 存 管理 器 ， 以 及 从 相关 联 的 分 配器 中 复 
制 构造 出 它 自己 。 这 看 似 简单 ， 其 实 不 然 。 正 如 读者 将 在 13.4.2 节 中 看 到 的 ， 分 配器 有 一 
段 漫长 而 痛 苗 的 历史 。 分 配器 被 某 些 有 影响 力 的 开发 者 视 为 C++ 中 最 需要 改进 的 部 分 之 
一 。 诚 然 ， 如 果 代码 足够 热点 ， 容 器 又 是 更 容易 处 理 的 基于 节点 的 容器 之 一 (std: :list、 
std::forward_list、std::map、std::multimap、std::set 或 std::muLtiset)， 那 么 实现 一 
个 自 定义 分 配器 可 能 会 有 助 于 改善 程序 性 能 。 

分 配器 的 实现 可 以 非常 简单 ， 也 可 以 复杂 到 让 人 头脑 发 麻 。 默 认 分 配器 std::allocator<T> 
是 ::operator new() 的 一 个 简单 的 包装 器 。 开 发 人 员 可 以 提供 一 个 具有 不 同行 为 的 9 默认 分 配器 。 


分 配器 有 两 种 基本 类 型 。 最 简单 的 分 配器 是 无 状态 的 ， 也 就 是 说 一 种 没有 非 静态 状态 的 分 
配器 类 型 。 默 认 分 配器 std: :aLLocator<T> 对 于 标准 库容 器 是 无 状态 的 。 无 状态 分 配器 具 
有 以 下 特点 。 


。 无 状态 分 配器 能 够 被 默认 构造 ， 无 需 显 式 地 创建 一 个 无 状态 分 配器 的 实例 ， 然 后 将 它 传 
递 给 容器 类 的 构造 函数 。 语 句 std: :List<myCLass，myALLoc> my_list; 会 构造 一 个 由 无 
状态 分 配器 myALLoc 分 配 的 myClass 的 实例 所 组 成 的 链表 。 

。 一 个 无 状态 分 配器 不 会 在 容器 实例 中 占用 任何 空间 。 大 多 数 标准 库容 器 类 都 继承 自 它 们 
的 分 配器 ， 会 利用 空 基 类 的 优化 生成 一 个 零 字 节 的 基 类 。 


无 状态 分 配器 my_allocator<T> 的 两 个 实例 是 难以 区 分 的 。 这 意味 着 一 个 无 状态 分 配器 分 
配 的 对 象 能 够 被 另外 一 个 分 配器 释放 。 这 使 得 像 std: :List 的 splice() 成 员 函 数 的 操作 变 
为 可 能 。 像 ALLocX<T> 和 AllocX<U> 这 样 的 不 同类 型 的 两 个 无 状态 分 配器 有 时 会 相等 ， 但 
并 非 总 是 相等 。 确 实 是 这 样 的 ，std: :allocator 就 是 一 个 例子 。 


相等 还 意味 着 可 以 高 效 地 进行 移动 赋值 和 std: :swap() 操作 。 如 果 两 个 分 配器 不 等 ， 那 么 
必须 使 用 目标 容器 类 的 分 配器 来 深 复制 原来 容器 中 的 内 容 。 


请 注意 ， 尽 管 像 ALLocX<T> 和 ALLocX<U> 这 样 两 个 完全 无 关 的 分 配器 类 型 的 实例 可 能 会 
碰巧 相等 ,但 是 这 种 特性 是 没有 价值 的 。 容 器 的 类 型 包括 分 配器 的 类 型 。 你 无 法 将 一 个 
std: :List<T,ALLocX> 拼接 到 std: :List<T,ALLocY> 上 ， 就 像 你 不 能 将 std: :list<int> 拼接 
到 std::list<string> 上 一 样 。 


当然 ， 无 状态 分 配器 的 主要 缺点 和 它 的 主要 优点 是 一 样 的 。 所 有 无 状态 分 配器 的 实例 的 本 
质 决 定 了 它们 会 从 相同 的 内 存 分 配器 中 获取 内 存 。 这 是 一 种 全 局 的 资源 ， 也 是 对 全 局 变量 
的 一 种 依赖 性 。 
创建 和 使 用 带 有 内 部 状态 的 分 配器 更 加 复杂 ， 原 因 如 下 。 
。 在 大 多 数 情况 下 ， 一 个 带 有 局 部 状态 的 分 配器 是 无 法 被 默认 构造 出 来 的 。 这 个 分 配器 必 
须 被 手动 地 构造 出 来 ， 然 后 传递 给 容器 的 构造 函数 。 
char arena[10000]; 


MyAlloc<Foo> alloc(arena); 
std: :list<Foo, MyAlloc<Foo>> foolist(alloc); 
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。 分 配器 的 状态 必须 被 存储 在 所 有 变量 中 ， 这 会 增 大 它们 的 大 小 。 这 对 于 








象 std: :list 


和 std: :map 这 样 的 创建 许多 市 点 的 容器 是 非常 痛苦 的 ， 但 也 是 容器 编程 人 员 最 希望 





自 定义 的 。 





。 两 个 相同 类 型 的 分 配器 在 进行 比较 时 可 能 会 不 相等 ， 因 为 它们 有 具有 不 同 的 内 部 状态 ， 使 





得 使 用 该 分 配器 类 型 在 容器 上 进行 的 某 些 操作 变 为 不 可 用 或 是 非常 低 效 。 





不 过 带 状态 的 分 配器 具有 一 个 很 重要 的 优点 ， 那 就 是 当 所 有 的 分 配 请 求 无 需 通过 一 个 单独 





的 全 局 内 存 管理 器 时 ， 为 多 种 不 同 用 途 创建 多 种 类 型 的 内 存 分 配 区 也 更 容易 了 。 

对 于 编写 自 定义 分 配器 来 改善 性 能 的 开发 人 员 而 言 ， 选 择 带 有 还 是 不 带 有 局 部 状态 的 分 配 
器 取决 于 有 多 少 类 需要 优化 。 如 果 只 有 一 个 类 是 热点 代码 ， 需 要 优化 ， 那 么 选择 一 个 无 状 
态 分 配器 更 简单 。 如 果 开 发 人 员 和 希望 优化 多 个 类 ， 那 么 选择 带 有 局 部 状态 的 分 配器 会 更 加 

















灵活 。 不 过 ， 开 发 人 员 可 能 难以 从 分 析 结 果 中 找 出 这 么 做 的 必要 性 。 为 许多 容器 都 编写 自 











定义 分 配器 也 许 无 法 收回 开发 人 员 的 时 间 投 资 。 


13.4.1 最 小 C++11 分 配器 





如 果 开 发 人 员 足 够 幸运 ， 有 一 个 完全 符合 C+t+11 标准 的 编译 器 和 标准 库 ， 那 么 他 就 可 以 








提供 一 个 只 需要 极 少 定义 的 最 小 分 配器 。 代 码 清单 13-7 展示 了 一 个 类 似 于 std: :allocator 
的 分 配器 。 


代码 清单 13-7 最 小 C++11 分 配器 


template <typename T> struct my_aLLocator { 
Using vaLue_type = T; 


my_aLLocator() = default; 
template <class U> my_allocator(const my_aLLocator<U>&) {} 


T* allocate(std::size t n, void const* = 0) { 
return reinterpret_cast<T*>(::operator new(n*sizeof(T))); 


} 


void deallocate(T* ptr, size t) { 
: :Operator delete(ptr); 
J 
}; 


template <typename T, typename U> 
inline bool operator==(const my_allocator<T>&, 
const my_aLLocator<U>&) { 
return true; 


} 


template <typename T, typename U> 
inline bool operator!=(const my_allocator<T>& a, 
const my_aLLocator<U>& b) { 
return !(a == b); 
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在 该 最 小 分 配器 中 只 有 以 下 这 些 函 数 。 
allocator() 
这 是 默认 构造 国 数 。 如 果 分 配器 有 一 个 默认 构造 国 数 ， 开 发 人 员 就 无 需 显 式 地 创建 一 个 
实例 ， 然 后 将 其 传递 给 容器 的 构造 函数 。 在 无 状态 分 配器 的 构造 函数 中 ， 上 默认 构造 函数 
通常 都 是 空 国 数 ， 在 具有 非 静态 状态 的 分 配器 中 则 通常 不 存在 默认 构造 国 数 。 
tempLate <typename U> aLLocator(U&) 
这 个 复制 构造 函数 使 得 将 一 个 allocator<T> 转换 为 如 aLLocator<treenode<T>> 这 样 的 
一 个 私有 类 的 关联 分 配器 成 为 可 能 。 这 非常 重要 ， 因 为 在 大 多 数 容器 中 ， 类 型 的 厂 点 
都 不 会 被 分 配 。 
在 无 状态 分 配器 中 ， 复 制 构造 函数 通常 都 是 空 函 数 ， 但 在 具有 非 静 态 状 态 的 分 配器 中 ， 
复制 构造 函数 中 则 必须 复制 或 克隆 状态 。 
allocate(size type n, const void* hint = 0) 
该 函数 允许 分 配器 分 配 足 够 存储 n 字 节 的 存储 空间 ， 并 返回 一 个 指向 这 块 存储 空间 的 指 
针 ， 或 是 在 没有 足够 的 内 存 空间 时 抛 出 std: :bad_aLtoc。hint 用 于 以 一 种 未 指定 的 方式 
帮助 分 配器 与 “局 部 性 ”关联 在 一 起 。 我 从 来 没有 见 过 使 用 了 hint 的 实现 方式 。 
void deallocate(T* p, size t n) 
该 函数 用 于 将 之 前 aLLocate() 分 配 的 指针 p 所 指向 的 占用 n 字 节 的 存储 空间 返回 给 内 
存 管理 器 。n 必须 与 调用 allocate() 时 的 参数 相等 ，p 则 指向 atlocate() 所 分 配 的 存储 


空间 。 
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bool operator==(allocator const& a) const 

bool operator!=(allocator const& a) const 
这 一 对 函数 用 于 比较 两 个 相同 类 型 的 分 配器 的 实例 是 否 相 等 。 如 果 两 个 实例 的 比较 结果 
是 相等 ， 那 么 由 一 个 实例 分 配 的 对 象 就 可 以 安全 地 被 另外 一 个 实例 释放 。 这 意味 着 两 个 
实例 从 相同 的 存储 区 域 中 分 配对 象 。 
相等 性 的 含义 是 非常 大 的 。 它 表示 当 且 仅 当 两 个 链表 有 相同 类 型 的 分 配器 并 且 两 个 分 配 
器 实例 的 比较 结果 是 相等 ， 那 么 就 可 以 将 std: :List 中 的 元 素 从 一 个 链表 拼接 到 另外 一 
个 链表 上 。 分 配器 类 型 是 容器 实例 类 型 的 一 部 分 ， 因 此 即使 两 个 分 配器 是 不 同 的 类 型 ， 
也 不 影响 它们 悄悄 地 共享 相同 的 存储 空间 。 

在 比较 两 个 无 状态 分 配器 的 相等 性 时 ， 结 果 无 条 件 地 是 true。 在 比较 具有 非 静态 状态 

的 分 配器 时 ， 必 须 比 较 它 们 的 状态 以 确定 是 否 相等 ， 或 是 返回 false。 


13.4.2 ”C++98 分 配器 的 其 他 定义 

C++11 作出 了 大 量 努 力 让 开发 人 员 更 容易 编写 分 配器 ， 其 代价 是 使 得 容器 类 更 加 复杂 了 。 
那些 必须 为 Ct+11 之 前 的 标准 库容 器 编写 分 配器 的 开发 人 员 肯 定 知道 原因 。 

最 开始 ， 分 配器 不 是 为 (至 少 不 是 仅仅 为 ) 管理 内 存 而 设计 的 。 分 配器 的 概念 是 在 20 世 
纪 80 年 代 形 成 的 ， 当 时 微 处 理 器 和 开发 人 员 正 试图 打破 16 位 地 址 空间 的 限制 。 当 时 的 
PC 通过 7 段 寄存 器 加 上 偏 移 量 来 组 成 地 址 。 每 个 程序 都 是 为 一 种 内 存 模型 编译 的 ， 这 个 模 
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型 描述 了 指针 工作 的 默认 方式 。 当 时 有 许多 内 存 模 型 ， 其 中 有 些 虽 然 高 效 ， 但 却 限 制 了 一 
个 程序 或 是 它 的 数据 结构 所 能 占据 的 内 存 总 量 。 另 外 一 些 内 存 模型 允许 使 用 更 多 内 存 ， 但 
却 比 较 低 效 。 当 时 的 C 编译 器 扩展 了 一 些 其 他 的 类 型 修饰 符 ， 这 样 基于 希望 使 用 它们 访问 
多 大 的 内 存 ， 开 发 人 员 可 以 声明 指针 指向 附近 的 地 址 或 是 很 远 的 地 址 。 
分 配器 最 初 的 设计 目的 是 打破 这 种 内 存 模型 的 混乱 。 但 是 随 着 分 配器 来 到 了 C++ 中 ， 硬 
件 制造 商 早已 经 听 到 了 C 语言 开发 人 员 的 抱怨 声 ， 实 现 了 一 个 疫 有 段 寄存 器 的 统一 内 存 模 
型 。 而 且 ， 在 当时 的 编译 器 上 ， 该 分 配器 解决 方案 低 效 得 简直 无 法 使 用 。 
在 C++11 之 前 ， 每 个 分 配器 包含 了 最 小 分 配器 中 的 所 有 国 数 ， 另 外 再 加 上 以 下 这 些 。 
vaLue_type 

待 分 配 的 对 象 的 类 型 。 
size_ type 

一 个 足以 保存 这 个 分 配器 能 够 分 配 的 最 大 字 节 数 的 整数 类 型 。 

对 于 用 作 标 准 库容 器 模板 的 参数 的 分 配器 ， 这 个 定义 需要 定义 别名 typedef size_t 


size type;。 





























difference_type 
一 个 足以 保存 两 个 指针 之 间 的 最 大 差 值 的 整数 类 型 。 
对 于 用 作 标 准 库容 器 模板 的 参数 的 分 配器 ， 这 个 定义 需要 定义 别名 typedef ptrdiff_t 


difference_ type;。, 

















pointer 
const_pointer 
一 个 指向 (const) T 的 指针 类 型 。 
对 于 用 作 标 准 库容 器 模板 的 参数 的 分 配器 ， 这 个 定义 需要 定义 别名 : 


typedef T* pointer; 
typedef T const* const_pointer; 





对 于 其 他 分 配器 ， 指 针 可 能 会 是 一 个 实现 了 用 于 解 引 指针 的 operator*() 的 类 指针 类 。 
reference 


Const_reference 


一 个 指向 (const) T 的 引用 类 型 。 
对 于 用 作 标 准 库容 器 模板 的 参数 的 分 配器 ， 这 个 定义 需要 定义 别名 : 
typedef T& reference; 
typedef T const& const_reference; 
pointer address(reference) 
Const_pointer address(const_reference) 
分 别 是 用 于 返回 一 个 指向 (const) T 的 指针 的 函数 和 返回 一 个 指向 (const) T 的 引用 的 
函数 。 
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对 于 用 作 标 准 库容 器 模板 的 参数 的 分 配器 ， 这 两 个 函数 需要 定义 为 : 


pointer address(reference r) { return &r; } 


const_pointer address(const_reference r) { return &r; } 





这 些 函 数 原本 是 用 于 抽象 内 存 模型 的 。 不 幸 的 是 ， 它 们 需要 与 标准 库容 器 兼容 ， 这 要 求 
pointer 必须 是 T*， 因 此 线性 随机 访问 迭代 右 和 二 分 查找 能 够 高 效 地 进行 工作 。 


尽管 这 些 定义 对 于 标准 库容 器 的 分 配器 有 国定 值 ， 但 是 定义 还 是 需要 的 ， 因 为 C++98 中 的 














容器 代码 使 用 了 它们 。 例 如 : 


typedef size type allocator::size type; 





有 些 开发 人 员 会 从 std: :allocator 中 得 到 分 配器 模板 ， 这 样 不 用 写 代 码 就 可 以 得 到 这 些 定 





义 。 但 是 这 种 编程 实践 是 有 和 争议 的 ， 因 为 毕 况 std: :allocator 可 能 如 





E 未 来 的 某 一 天 发 生 改 











变 。 它 在 早 些 年 已 经 发 生 了 很 大 变化 了 ， 在 C+t+11 中 又 发 生 了 变化 ， 


因此 很 可 能 还 会 发 生 


变化 。 另 一 种 方法 是 简单 地 提出 这 些 定义 中 最 不 可 能 发 生 改 变 的 部 分 ， 像 下 面 这 样 : 





template <typename T> struct std_aLLocator_defs { 
typedef T value_ type; 
typedef T* pointer; 
typedef const Tx const_pointer; 
typedef T& reference; 
typedef const T& const_reference; 
typedef size t size type; 
typedef ptrdiff t difference_ type; 


pointer address(reference r) { return &r; } 
const_pointer address(const_ reference r) { return &r; } 


起 


得 出 的 逻辑 结论 是 ， 我 们 可 以 根据 这 些 定义 编写 一 个 萃取 (trait) 类 ， 这 与 互联 网 上 某 些 
更 加 复杂 的 分 配器 模板 所 做 的 一 样 。 这 也 是 C++11 最 小 分 配器 所 做 的 事情 ， 只 不 过 萃取 
类 的 工作 方式 相反 。 茶 取 类 会 检查 分 配器 模板 ， 看 看 它 是 否 有 这 些 定义 ， 如 果 分 配器 没有 
提供 标准 定义 ， 那 么 它 就 会 提供 一 个 标准 定义 。 接 着 ， 容 器 类 代码 引用 atlocator_traits 




















类 ， 而 不 是 分 配器 ， 如 下 所 示 : 


typedef std: :aLLocator_traits<MyALLocator<T>>::VvVaLue_type valu 




















e_type; 





有 了 这 个 例子 ,现在 是 时 候 看 看 以 下 这 些 重要 的 定义 了 (请 记 住 ， 还 包括 在 13.4.1 节 中 讲 





解 过 的 最 小 分 配器 的 定义 ) : 
void construct(pointer p, const T& val) 
这 个 函数 会 使 用 定位 放置 new 表达 式 复 制 构造 实例 : 


new(p) T(val); 


对 于 C++11， 定 义 了 这 个 国 数 后 就 可 以 在 T 的 构造 国 数 中 使 用 一 个 参数 列表 : 


template <typename U, typename... Args> 
void construct(U* p, Args&&... args) { 
new(p) T(std: :forward<Args>(args...)); 
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void destroy(pointer p); 
这 个 函数 会 调用 p->~T(); 销毁 指向 T 的 指针 。 
rebind: :value 


rebind 结构 体 的 声明 是 分 配器 的 核心 。 它 通常 看 起 来 像 下 面 这 


template <typename U> struct rebind { 
typedef allocator<U> value; 





区 











于 


rebind 定义 了 一 个 用 于 在 有 allocator<T> 的 情况 下 为 类 型 U 创 建 分 配器 的 公式 。 每 
个 分 配器 都 必须 提供 这 个 公式 。 它 定义 了 像 std: :list<T> 这 样 的 容器 应 该 如 何 分 配 
std: :list<T>: :listnode<T> 的 实例 。 在 大 多 数 容器 中 它 都 非常 重要 ， 类 型 的 市 点 永远 不 
会 被 分 配 。 


代码 清单 13-8 是 一 个 完整 的 等 价 于 代码 清单 13-7 中 的 最 小 分 配器 的 C++98 风格 的 分 配器 。 
代码 清单 13-8 ”C++98 分 配器 


template <typename T> struct my_aLLocator 98 : 
public std_allocator_defs<T> { 
template <typename U> struct rebind { 
typedef my_allocator_98<U, n> other; 














my_allocator_98() {/* 空 */} 
my_allocator_98(my_allocator_98 const&) {/* 空 */} 


void construct(pointer p, const T& t) { 
new(p) T(t); 


void destroy(pointer p) { 
p->~T(); 
} 
size type max_size() const { 
return block_o_memory::blocksize; 
} 
pointer aLLocate( 
size_type n， 
typename std::allocator<void>::const pointer = 0) { 
return reinterpret_cast<T*>(::operator new(n*sizeof(T))); 
} 
void deallocate(pointer p, size type) { 
: :Operator delete(ptr); 
} 
}; 


template <typename T, typename U> 
inline bool operator==(const my_aLLocator_98<T>&， 
const my_allocator_98<U>&) { 
return true; 


} 


template <typename T, typename U> 
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inline bool operator!=(const my_allocator_98<T>& a， 
const my_aLLocator_98<U>& b) { 
return !(a == b); 
} 
当 开 发 人 员 在 互联 网 上 查看 分 配器 的 代码 时 ， 遇 到 各 种 不 同类 型 的 国 数 签 名 。 一 个 极 
其 谨慎 且 编 码 更 加 符合 ep 
pointer aLLocate( 
size_type n， 
typename std::allocator<void>::const_ pointer = 0); 
而 一 个 没 那 么 谨慎 的 开发 人 员 可 能 会 编写 出 与 严格 用 于 标准 库容 器 的 分 配器 相同 的 函数 签 
名 》 如 下 所 示 : 
T* allocate(size t n, void const* = 0); 
一 个 签名 是 技术 上 最 符合 标准 的 函数 签名 ,但 是 第 二 种 签名 也 能 编译 通过 并 更 加 简洁 。 
这 就 是 模板 做 界 的 特点 。 
互联 网 上 搜索 到 的 分 配器 的 代码 的 另外 一 个 问题 是 ， 当 无 法 满足 请 求 时 ，allocate() 必须 
抛 出 std: :bad_alloc。 因 此 ， 以 下 这 上 段 调 用 matlloc() 分 配 内 存 的 代码 是 不 符合 标准 的 ， 因 
为 maLtoc() 可 能 会 返回 nuLLptr 
























































pointer aLLocate( 
size_type n， 
typename std::allocator<void>::const pointer = 0) { 
return reinterpret cast<T*>(malloc(n*sizeof(T))); 


13.4.3 ”一 个 分 配 固定 大 小 内 存 块 的 分 配器 


标注 库容 器 类 std: :list、std::map、std::multimap、std::set 和 std::multiset 都 从 许多 
同等 的 节点 中 创建 数据 结构 。 这 样 的 类 可 以 利用 使 用 在 13.3.1 节 中 讲解 的 分 配 固定 大 小 内 
存 块 的 内 存 管理 器 实现 的 简单 分 配器 。 代 码 清单 13-9 展示 了 它 的 部 分 定义 ， 其 中 有 两 个 国 
数 allocate() 和 deallocate()。 其 他 定义 则 与 代码 清单 13-8 中 展示 的 标准 分 配器 中 的 
定义 相同 。 


代码 清单 13-9 ”分配 固定 大 小 内 存 块 的 分 配器 


extern fixed_block_memory_manager<fixed_arena_controller> 
list_ memory_manager; 


















































template <typename T> class StatelessListAllocator { 
public: 


pointer aLLocate( 
size_type count, 
typename std::allocator<void>::const _ pointer = nullptr) { 
return reinterpret_cast<pointer> 
(list memory_manager.allocate(count * sizeof(T))); 





void deallocate(pointer p, size type) { 
string_memory_manager .deallocate(p); 
} 
上 


正如 之 前 介绍 的 ，std::list 永远 不 会 试图 分 配器 类 型 T 的 节点 ， 而 是 会 使 用 ALLocator 


模板 参数 通过 调用 list_memory_manager.allocate(sizeof(<listnode<T>>)) 来 构造 一 个 
listnode<T>。 


链表 分 配器 需要 改变 之 前 定义 的 内 存 管理 器 。Microsoft Visual C++ 2015 中 的 std: :List 的 
实现 会 分 配 一 个 大 小 与 其 他 节点 不 同 的 特殊 的 前 哨 节点 。 它 的 大 小 比 其 他 节点 小 一 些 ， 
此 ， 只 要 对 分 配 固定 大 小 内 存 块 的 内 存 分 配器 做 一 点 小 小 的 改动 ， 就 能 让 它 工作 起 来 。 代 
码 清单 13-10 展示 了 修改 后 的 版 本 。 修 改 点 是 atlocate() 不 再 判断 当前 所 请 求 的 内 存 大 小 
是 否 等 于 之 前 保存 的 内 存 块 的 大 小 ， 而 是 只 判断 它 不 大 于 之 前 保存 的 内 存 块 的 大 小 。 


代码 清单 13-10 ”修改 后 的 aLLocate() 函数 


template <class Arena> 
inline void* fixed block_memory_manager<Arena> 
::allocate(size t size) { 

if (empty()) { 

free ptr_ = reinterpret_cast<free block*> 
(arena_.allocate(size)); 
block_size_ = size; 
if (empty()) 
throw std::bad_alloc(); 



































if (size > block_size ) 

throw std::bad_alloc(); 
auto p = free_ptr_; 
free_ptr_ = free_ptr_->next; 
return p; 


} 


分 配 国定 大 小 内 存 块 的 分 配器 的 性 能 

我 编写 了 一 个 程序 ， 测 试 了 分 配 固定 大 小 内 存 块 的 分 配器 的 性 能 。 该 测试 程序 会 在 一 个 循 
环 中 反复 创建 含有 1000 个 整数 的 链表 ， 然 后 删除 它 。 测 试 结果 是 使 用 默认 分 配器 耗 时 76.2 
微 秒 ， 而 使 用 分 配 固定 大 小 内 存 块 的 分 配器 则 只 耗 时 11.6 微 秒 ， 速 度 提高 了 大 约 5.6 倍 。 
这 是 一 种 显著 的 性 能 改善 ， 但 是 我 们 必须 仍然 对 它 有 所 怀疑 ， 因 为 只 有 创建 和 析 构 操作 能 
够 因 这 项 优化 而 获 益 。 如 有 果 程 序 还 会 对 链表 进行 其 他 处 理 ， 那 么 性 能 不 会 有 这 么 大 提升 。 


我 还 通过 构建 一 个 含有 1000 个 整数 键 的 map 进行 了 一 次 测试 。 使 用 默认 分 配器 构造 创建 
和 销毁 map 耗 时 142 微 秒 ， 而 使 用 分 配 固定 大 小 内 存 块 的 分 配器 则 只 耗 时 67.4 毫秒 ， 性 能 
提升 了 超过 110%。 这 次 测试 向 我 们 证 实 了 程序 的 其 他 活动 (在 本 例 中 即 是 存储 map 的 树 
的 重新 平衡 ) 对 使 用 分 配 固定 大 小 内 存 块 的 分 配器 进行 性 能 改善 的 结果 的 影响 。 


13.4.4 ”字符 串 的 分 配 固定 大 小 内 存 块 的 分 配器 


std::string 在 一 个 动态 字符 数组 中 存储 它 的 内 容 。 随 着 字符 串 的 增长 该 数组 会 重新 分 配 ， 
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因此 看 起 来 上 一 节 中 的 简单 的 分 配 固 定 大 小 内 存 块 的 分 配器 并 不 适合 它 。 但 是 有 时 使 我 们 
也 是 可 以 克服 这 种 限制 的 。 如 果 开 发 人 员 知 道 字符 串 的 最 大 长 度 ， 就 能 够 创建 一 个 总 是 分 
配 国定 大 小 为 那个 最 大 长 度 的 分 配器 。 这 种 情况 非常 常见 ， 因 为 有 着 存储 百 万 字符 的 字符 
串 的 应 用 程序 很 少 。 
代码 清单 13-11 是 字符 串 的 分 配 固定 大 小 内 存 块 的 分 配器 的 一 部 分 。 


代码 清单 13-11 字符 串 的 分 配 固定 大 小 内 存 块 的 分 配器 


template <typename T> class NewAllocator { 
public: 






































pointer aLLocate( 
size type /*count*/, 
typename std::allocator<void>::const _ pointer = nuLLptr) { 
return reinterpret_cast<pointer> 
(string_memory_manager .allocate(512)); 


} 


void deallocate(pointer p, size type) { 
::operator delete(p); 


} 
}; 
文 个 分 配器 的 重要 特性 是 aLLocate() 完全 忽略 所 请 求 的 内 存 大 小 ， 总 是 返回 一 个 固定 大 小 
的 内 存 块 。 
字符 串 分 配器 的 性 能 
我 使 用 代码 清单 4-1 中 的 remove_ctr1() 测试 字符 串 分 配器 的 性 能 。 该 函数 对 std: :string 
的 使 用 非常 低 效 ， 会 创建 许多 临时 字符 串 。 代 码 清单 13-12 展示 了 修改 后 的 函数 。 


代码 清单 13-12 ”使 用 分 配 固定 大 小 内 存 块 的 字符 串 分 配器 的 版 本 的 remove_ctr1() 


typedef std::basic_ string< 
char, 
std::char_traits<char>, 
StatelessStringAllocator<char>> fixed_block_string; 

















fixed_block_string remove_ctrl_ fixed block(std::string s) { 
fixed_block_string result; 
for (size t i = 0; i<s.length(); ++i) { 
if (s[i] >= 0x20) 
result = result + s[il]; 


} 


return result; 
原来 的 remove_ctr1() 的 测试 结果 是 耗 时 2693 毫秒 。 代码 清单 13-12 中 的 修改 后 的 版 本 执 
行 相 同 的 测试 只 耗 时 1124 毫秒 ， 大 约 快 了 1.4 倍 。 这 个 性 能 提升 效果 非常 显著 ， 但 是 正如 
我 们 在 第 4 章 中 看 到 的 ， 甚 他 优化 方法 的 效果 更 好 。 


编写 一 个 自 定义 的 内 存 管理 器 或 分 配器 可 以 提高 程序 性 能 ， 但 相 比 于 移 除 对 内 存 管 理 器 的 
调用 等 其 他 优化 方法 ， 它 的 效果 没有 那么 明显 。 
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13.5 ”小结 


。 相 比 于 内 存 管理 器 ， 在 其 他 地 方 看 看 有 没有 可 能 会 带 来 更 好 性 能 改善 效果 的 优化 机 会 。 

。 对 儿 个 大 型 开源 程序 的 研究 表明 ， 禁 换 默 认 内 存 管理 器 对 程序 整体 运行 速度 的 性 能 提升 
最 多 只 有 30%。 

。 为 申请 相同 大 小 内 存 块 的 请 求 分 配 内 存 的 内 存 管理 器 是 很 容易 编写 的 ， 它 的 运行 效率 也 
很 高 。 

。 同一 个 类 的 实例 的 分 配 内 存 的 请 求 所 申请 的 内 存 的 大 小 是 一 样 的 。 

。 可 以 在 类 级 别 重 写 new() 运算 符 。 

。 标准 库容 器 类 std::list、std::map、std::multimap、std::set 和 std::multiset 都 从 
许多 同等 的 节点 中 创建 数据 结构 。 

。 标准 库容 器 接收 一 个 ALLocator 作为 参数 ， 与 类 专用 new() 运算 符 一 样 ， 它 也 允许 自 定 
义 内 存 管理 。 

。 编写 一 个 自 定义 的 内 存 管理 器 或 分 配器 可 以 提高 程序 性 能 ， 但 相 比 于 移 除 对 内 存 管理 器 
的 调用 等 其 他 优化 方法 ， 它 的 效果 没有 那么 明显 。 
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作者 介绍 
Kurt Guntheroth 从 事 软 件 开发 工作 超过 35 年 ， 他 编写 责任 重大 的 C++ 代码 也 有 25 年 
了 。 他 具有 Windows、Linux 和 吝 入 式 设 备 上 的 开发 经 验 。 


Kurt 不 是 一 个 工作 狂 ， 他 喜欢 陪伴 妻子 和 四 个 活泼 的 儿子 游玩 。Kurt 居住 在 华盛顿 州 的 西 
雅 图 。 


封面 介绍 

本 书 封面 上 的 动物 是 披 红 独 闪 (Cape Hartebeest， 学 名 Alcelaphus buselaphus caama) ， 其 生 
活 范 围 是 非洲 西南 部 的 平原 和 灌木 从 地 区 。 披 红 猜 羚 属 牛 科 ， 是 一 种 大 型 羚羊 。 雄 性 和 峻 
性 披 红 独 羚 都 有 长 达 60 厘米 的 形状 独特 的 谊 曲 的 羊角 。 它 们 具有 优秀 的 听觉 和 嗅觉 ， 能 
够 以 每 小 时 55 千 米 的 速度 ， 以 之 字形 逃跑 路 线 躲 避 天 政 的 猎 捕 。 虽 然 独子、 鹏 子 和 猎狗 
偶尔 也 会 猫 捕 披 红 独 冷 ， 但 通常 它们 部 很 难得 冰 。 披 红 独 状 看 起 来 就 像 是 由 某 个 委员 会 设 
计 出 来 似 的 ， 但 它 经 过 了 精心 优化 。 

O"Reilly 出 版 物 封 面 上 的 许多 动物 都 濒临 灭绝 ， 但 所 有 这 些 动物 对 世界 都 非常 重要 。 如 想 
了 解 更 多 关于 如 何 拯 救 这 些 动物 的 信息 ， 请 访问 animals.oreilly.com。 








封面 形象 来 自 The Riverside Natural History Volume。 封 面 字 体 是 RW Typewriter 和 Guar dian 
Sans， 正 文字 体 为 Adobe Minion Pro， 标 题字 体 是 Adobe Myriad Condensed， 而 代码 字体 则 
是 Dalton Maag 公司 的 Ubuntu Mono。 
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技术 改变 世界 ， 阅读 
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MAKING USERS AWESOME 
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用 户 思维 +: 好 产品 让 用 户 为 自己 拓 叫 


令 颠覆 以 往 所 有 产品 设计 观 、 全 新 定义 好 产品 
令 极 客 邦 科技 总 裁 池 建 强 、 粮 事 百 科 创 始 人 王 坚 、 无 码 科 技 合伙 人 邱 岳 等 联 
社 推 荐 


作者 : Kathy Sierra 
译 者 : 石 航 








用 数据 讲 故事 


令 用 故事 思维 可 视 化 数据 ， 让 沟通 更 高 效 、 更 直接 
基于 Excel 做 数据 分 析 ， 职 场 人 士 通用 
令 秋 叶 PPT 创 始 人 秋 叶 、 数 据 分 析 大 V 邓 凯 、 圣 骑 咨 询 创 始 人 范增 等 联 社 推 荐 


作者 : Cole Nussbaumer Knaflic 
译 者 : 陆昊 ” 吴 梦 颖 


编程 风格 : 好 代码 的 逻辑 


4 被 读者 评 为 “ 近 20 年 来 含金量 最 高 的 著作 ” 
令 与 算法 和 数据 结构 同等 重要 的 程序 设计 概念 
令 了 解 编程 和 系统 设计 的 不 同方 式 ， 找 寻 卓 越 代码 的 奥秘 ， 体 会 编程 之 美 


作者 : Cristina Videira Lopes 
译 者 : 顾 中 磊 


算法 图 解 










令 像 小 说 一 样 有 趣 的 算法 入 门 书 
令 代码 示例 基于 Python 





作者 : Aditya Bhargava 
译 者 : 素 国 忠 
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Git 团队 协作 


4 掌握 Git 精 髓 
令 解决 版 本 控制 、 工 作 流 问题 ， 实 现 高 效 开发 


Emma Jane Hogbin Westby 车 . 
Nei a 作者 : Emma Jane Hogbin Westby 
= 译 者 : 童 仲 训 












WY mmaraitu# 





学 习 敏 捷 : 构建 高 效 团队 


人 精 讲 精益 、Scrum 、 极 限 编程 和 看 板 方法 
学 令 全 面 解读 敏捷 价值 观 及 原则 ， 提 高 团队 战斗 力 


习 
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作者 : Andrew StellIman，Jennifer Greene 
译 者 : 段 志 岩 ” 郑 思 遥 
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回复 “C++” 查看 相关 书 单 


© 
微 博 连接 
关注 @ 图 灵 教 育 每 日 分 享 上 T 好 书 
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QQ 连接 
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图 灵 读 者 官方 群 [I[: 164939616 
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C++ 性 能 优化 指南 

程序 性 能 至 关 重 要 。 本 书 就 是 一 本 C++ 性 能 调 优 实践 指南 ， 精 选 工作 中 
频繁 使 用 和 能 够 带 来 显著 性 能 提升 效果 的 技术 ， 且 包含 大 量 实例 介绍 ， 
旨 在 帮助 读者 学 会 如 何 让 已 经 钱 行 了 设计 实践 原则 的 C++ 程序 在 消耗 更 
少 资源 的 情况 下 运行 得 更 快 。 在 熟悉 代码 优化 的 过 程 中 ， 读 者 也 会 了 解 
卓越 代码 的 编程 之 道 ， 形 成 可 以 提高 优化 效果 的 思维 模式 。 


书 中 所 提 的 多 数 优化 技巧 也 适用 于 其 他 编程 语言 。 


目 使 用 分 析 器 和 软件 计时 器 定位 性 能 热点 

学 习 通 过 可 重复 的 实验 测量 修改 后 的 代码 的 性 能 
优化 动态 分 配 内 存 的 变量 的 使 用 

改善 热点 循环 和 函数 的 性 能 

提高 字符 串 处 理 函 数 的 速度 

认识 高 效 算 法 和 优化 模式 

学 习 C++ 容器 类 的 优点 和 缺点 

站 在 优化 人 员 的 角度 审视 查找 和 排序 

高 效 使 用 C++ 流 输入 输出 函数 

高 效 使 用 C++ 的 基于 线程 的 并 发 特性 


Kurt Guntheroth， 从 事 软 件 开发 工作 已 三 十 余年 ， 绝 大 部 分 时 间 都 在 


与 C++ 代 码 打 交道 ， 精 通 Windows、Linux 和 上 肉 入 式 设 备 开发 。 
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“本 书 介绍 的 性 能 优化 技巧 令 人 


赞叹 ， 只 有 像 Kurt 这 种 对 C++ 性 
能 了 如 指 掌 的 开发 人 员 才 能 写 
出 这 样 一 本 干货 满 满 的 书 。 这 
是 一 本 值得 信赖 的 参考 资料 ， 
让 人 看 到 了 不 一 样 的 C++。” 
一 一 Jerry Tan 
The Depository Trust & Clearing 
公司 高 级 软件 工程 师 
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